TRINITY & Co: alles um Bulldozer-based APUs von AMD und deren Plattform

Status
Für weitere Antworten geschlossen.
Sowas meldet cpuz auch beim Bulldozer falsch bzw. es wird falsch interpretiert.

Immerhin sind die CPUs der Family 15h mit Shared-L2-Cache ausgestattet was aber so nicht in den CPUID Registern steht - da steht tats. 2048kb L2 Cache jeweils pro Thread sodass CPUZ einfach Thread x 2048kb ausgiebt ...

Trinity hat wie Orochi 2048kb L2 Cache pro Modul - wobei es 1 und 2 Moduler gibt dh bis max 4MB L2 Cache ;)
 
Danke für die Erklärung. Also ist nun auch die "1MiB-L2 pro Modul"-Theorie widerlegt!(?)

LG
 
Danke für die Erklärung. Also ist nun auch die "1MiB-L2 pro Modul"-Theorie widerlegt!(?)
Die ist doch schon lange passé, es wird sowohl 2MB L2 als auch 1MB bei kleineren Modellen geben. Aber wahrscheinlich ist das dann nur teil-deaktiviert.
 
Jetzt wo du es sagst...

Seit dem DIE-Shot, oder war das früher wegen was anderem?

LG
 
Glaub da gabs schon länger zuvor einen entsprechenden Eintrag in nem AMD PDF. Weiß jetzt aber nicht mehr genau. Auf alle Fälle war das damals auch schon 100%.
 
Cyclos Semiconductor Announces First Commercial Implementation of Resonant Clock Mesh Technology



[...]
AMD’s 4+ GHz x86-64 core code-named “Piledriver” employs resonant clocking to reduce clock distribution power up to 24% while maintaining the low clock-skew target required by high-performance processors. Fabricated in a 32nm CMOS process, Piledriver represents the first volume production-enabled implementation of resonant clock mesh technology. “We were able to seamlessly integrate the Cyclos IP into our existing clock mesh design process so there was no risk to our development schedule,” said Samuel Naffziger, Corporate Fellow at AMD. “Silicon results met our power reduction expectations, we incurred no increase in silicon area, and we were able to use our standard manufacturing process, so the investment and risk in adopting resonant clock mesh technology was well worth it as all of our customers are clamoring for more energy efficient processor designs.”[...]

Ich glaube, das war schon bekannt bzw. wurde schon mal irgendwann, irgendwo erwähnt. Jetz isses offiziell.

Cyclos resonant clock mesh technology employs on-chip inductors to create an electric pendulum, or “tank circuit”, formed by the large capacitance of the clock mesh in parallel with the Cyclos inductors. The Cyclos inductors and clock control circuits “recycle” the clock power instead of dissipating it on every clock cycle like in a clock tree implementation, which results in a reduction in total IC power consumption of up to 10%. Clock mesh power reduction is one area where EDA vendors have not yet delivered design solutions so the validation of resonant clock mesh technology via the AMD Piledriver design is welcome news to the IC design community.

http://www.cyclos-semi.com/technology/

Patent/paper(leider mit Anmeldung)?
http://ieeexplore.ieee.org/search/f...&rowsPerPage=100&queryText=(microcontrollers)
und ein whitepaper von Cyclos
http://www.cyclos-semi.com/pdfs/time_to_change_the_clocks.pdf

Wurde anscheinend gestern auf der ISSCC 2012 (19. - 23. 02.) vorgestellt, habe ich gar nicht mitbekommen, dass die schon läuft.
 
Zuletzt bearbeitet:
Dito in Sachen ISSCC, und danke für die Links, damit ist nun endlich klar, dass kein ULK läuft, auf Seite 6 der BD-Präsentation steht nur "low-K Dielectric".


Wenn jetzt doch nur noch die Nachricht bzw. Bestätigung kommen würde, dass Piledriver ULK bekommt, dann wäre endlich mal wieder ein Licht am Ende des Tunnels erkennbar...
 
Selbst für die 45nm Opteron´s "Lisbon" hat AMD keine ULK DIEs verwendet ;)

Ich denke man sollte Abstand von solchen Meldungen nehmen, was erwartet ihr den von Piledriver, durch ULK plötzlich 50% mehr Kerne wie Deneb > Thuban, ganz bestimmt nicht, nicht vergessen auf den blubber Folien von AMD steht irgendwas von 10-15% mehr Performance..das kommt bestimmt nicht durch ULK sondern durch Cache/Frontend Verbesserungen und vielleicht 5-10% mehr Takt.
 
Zuletzt bearbeitet:
was erwartet ihr den[sic!]

Ich erwarte von dir vor Allem kein sinnloses Getrolle und hochnäsige Belehrungen.


Und ich persönlich erwarte von ULK natürlich 200% mehr Kerne bei negativer Leistungsaufnahme, also Einspeisung von Strom ins Netz, das dann auch noch vergütet wird.

Das ist keine "Meldung" sondern eine Pressemitteilung, wie sich das im Endeffekt auswirkt ist noch gar nicht geklärt.
 
Das vorhandensein von ULK bei Trinity wäre aber ein Zeichen dafür dass GF die Fertigung nun endlich im Griff hat. Zugleich böte es mehr Spielraum was Spannungssenkungen angeht und damit den Stromverbrauch senkt. Wir erinnern uns: Thuban konnte nicht deutlich höher takten als Deneb, brachte aber 50% mehr Transistoren im selben TDP-Budget unter. Wobei ULK also wohl hauptsächlich hilft sind die Leckströme.
Die sollten bei Trinity zwar dank Powergating im leerlauf nicht so böse sein (kann Llano ja schon ganz gut) aber wenn alle Module wachsein müssen (Teillast) könnte das einiges bewirken.
Möglicherweise hat AMD aber auch ULK in 32nm schon ad acta gelegt weil der Aufwand nicht lohnt.
 
ULK brachte eine Spannungssenkung von 1,35V auf 1,225V mit bei hohen Taktraten. Ohne ULK wurden AMD-CPUs (Athlon2 etc.) oft mit bis zu 1,425V bei 3GHz (!) VID ausgeliefert. Daher kam der gewaltige Sprung, dass man plötzlich 2 Kerne mehr mit ins Budget bekam. Auch BD hat z.T. eine relativ hohe VID und vor allem offenbar eine gewaltige Leckstromproblematik bei Taktraten jenseits der 3,5GHz. Grade hier kann ULK einiges bringen. Ich glaube, dass AMD diese Technik vor allem im Hinblick auf CMT-Designs (in 45nm z.B.) forciert hat, da man damals schon wusste, dass man hohe Taktraten benötigt und nicht in die Prescott-Falle mit hohen Leckströmen und hohen Spannungen tappen wollte.
Da Magny-Cours nicht sehr hoch getaktet war, brauchte er auch keine hohen Spannungen und der ULK-Vorteil dürfte dort einfach verpufft sein, sodass man bei der Rev.D geblieben ist. War halt billiger. ULK bringt also nicht immer Vorteile, aber da, wo sich BD momentan "aufhält" könnte es sogar noch größere Effekte haben als beim Thuban, zumal die Transistoren mit HKMG ja auch deutlich effizienter geworden sein dürften als bei 45nm. Heißt im Klartext, niedrigere Spannungen und homogenere Produktionsausbeute bei CPUs um die 4GHz. Man wird vllt. nicht viel mehr Takt schaffen mit ULK aber man wird deutlich mehr 4GHz-Prozessoren aus dem Waver schneiden.
 
Zuletzt bearbeitet:
Das vorhandensein von ULK bei Trinity wäre aber ein Zeichen dafür dass GF die Fertigung nun endlich im Griff hat. Zugleich böte es mehr Spielraum was Spannungssenkungen angeht und damit den Stromverbrauch senkt. Wir erinnern uns: Thuban konnte nicht deutlich höher takten als Deneb, brachte aber 50% mehr Transistoren im selben TDP-Budget unter. Wobei ULK also wohl hauptsächlich hilft sind die Leckströme.
Die sollten bei Trinity zwar dank Powergating im leerlauf nicht so böse sein (kann Llano ja schon ganz gut) aber wenn alle Module wachsein müssen (Teillast) könnte das einiges bewirken.
Möglicherweise hat AMD aber auch ULK in 32nm schon ad acta gelegt weil der Aufwand nicht lohnt.

nope. Deneb 758Mio., Thuban 904Mio.
das sind nicht mal 20% mehr Transistoren.

du meintest sicherlich 50% mehr Kerne. ;)
 
ULK & E0 Stepping war damals D. Meyer´s Plan gegen Intels Lynnfield mit SMT.
 
Und aus ideologischen Gründen wird man ULK niemals mehr verwenden, stimmt wir fahren auch nicht auf Autobahnen.
Das ist doch Schwachsinn sag es ist zu teuer sonst was aber es an einer Person fest zu machen ist lächerlich.
 
AMD brauchte jedoch nicht zwingend ULK und das PH-E0 Stepping - immerhin gingen 6 Cores auch ohne - mit HY-Dx dh. Opteron's der Serien 24xx, 41xx und 61xx war dies auch möglich ;)

Tja evtl. ist der "Aufwand" für ULK wirklich zu groß wenn AMD ähm GF bereits an kleineren Strukturen werkelt sodass evtl. doch bald 28nm oder 22nm SOI-Art folgen *noahnung*

Zurück zur Dreifaltigkeit

Ich hab mal die CPUID Feature Flags "entschlüsselt" für die, die damit nix anfangen konnten:

CPUID 0000:0001 ECX
Bit 00 - SSE3 ja
Bit 01 - PCLMULQDQ - ja
Bit 02 - DTES64 - nein
Bit 03 - MWAIT - ja
Bit 04 - DSCPL - nein
Bit 05 - VMX - nein
Bit 06 - SMX - nein
Bit 07 - EIST - nein
Bit 08 - TM2 - nein
Bit 09 - SSSE3 - ja
Bit 10 - L1ID - nein
Bit 11 - ? - nein
Bit 12 - Intel FMA(3) - ja
Bit 13 - CMPXCHG16B - ja
Bit 14 - xTPR - nein
Bit 15 - PDCM - nein
Bit 16 - ? - nein
Bit 17 - PCID - nein
Bit 18 - DCA - nein
Bit 19 - SSE4.1 - ja
Bit 20 - SSE4.2 - ja
Bit 21 - ext. APIC - nein
Bit 22 - MOVBE - nein
Bit 23 - POPCNT - ja
Bit 24 - TSCD - nein
Bit 25 - AES - ja
Bit 26 - XSAVE - ja
Bit 27 - OSXSAVE - ja
Bit 28 - AVX - ja
Bit 29 - F16C - ja
Bit 30 - nein
Bit 31 - Read as Zero !

CPUID 0000:0001 EDX
Bit 00 - FPU - ja
Bit 01 - VME - ja
Bit 02 - DE - ja
Bit 03 - PSE - ja
Bit 04 - TSC - ja
Bit 05 - MSR - ja
Bit 06 - PAE - ja
Bit 07 - MCE - ja
Bit 08 - CMPXCHG8B - ja
Bit 09 - APIC - ja
Bit 10 - ? - nein
Bit 11 - SYSCALL - ja
Bit 12 - MTRR - ja
Bit 13 - PGE - ja
Bit 14 - MCA - ja
Bit 15 - CMOV - ja
Bit 16 - PAT - ja
Bit 17 - PSE36 - ja
Bit 18 - PSN - nein
Bit 19 - CLFLUSH - ja
Bit 20 - ? - nein
Bit 21 - DS - nein
Bit 22 - ACPI - nein
Bit 23 - MMX - ja
Bit 24 - FXSAVE - ja
Bit 25 - SSE - ja
Bit 26 - SSE2 - ja
Bit 27 - SS - nein
Bit 28 - HTT - ja
Bit 29 - TM - nein
Bit 30 - IA64 - nein
Bit 31 - PBE - nein

mehr später
 
Zuletzt bearbeitet:
Man brauchte ULK schon - für über 3 GHz. Die Rev.D ging nicht über 3GHz. Ohne ULK keinen 6-Kerner im Desktop-Markt, ganz einfach. Dort braucht man nicht ein paar wenige lauffähige 3GHz+ CPUs sondern dort muss der Löwenanteil sicher über 3GHz laufen. Deshalb ULK. Und ob man das an Dirk Meyer festmachen kann halte ich für fraglich. Ich nehme eher an, dass es ein lang angelegter Test für die Massenfertigung war und Thuban sich dafür sehr eignete. Daraus wurde dann ein Erfolg, ganz einfach. Wäre es kein Erfolg gewesen, gäbs die Rev.E in AMDs Testlabors und wir hätten nie etwas davon erfahren...
Leider ließ sich der Erfolg nicht auf 32nm übertragen, warum, weiss nur GloFo+AMD. Spekulieren kann man da viel, aber bringen tut das nix. Es ist so wie es ist. Wollen wir hoffen, dass ULK mittlerweile läuft. Das wäre mMn ein essenzieller Baustein für den Erfolg der BDs-Artigen langfristig gesehen. Das man 32nm stark verlängert hat, könnte ein Indiz dafür sein, dass man es hinbekommen hat. Kann natürlich auch sein, dass man schlicht nichts besseres hat bis dahin ;).
 
Zuletzt bearbeitet:
AMD’s 4+ GHz x86-64 core code-named “Piledriver” employs resonant clocking to reduce clock distribution power up to 24% while maintaining the low clock-skew target required by high-performance processors. Fabricated in a 32nm CMOS process, Piledriver represents the first volume production-enabled implementation of resonant clock mesh technology. “We were able to seamlessly integrate the Cyclos IP into our existing clock mesh design process so there was no risk to our development schedule,” said Samuel Naffziger, Corporate Fellow at AMD. “Silicon results met our power reduction expectations, we incurred no increase in silicon area, and we were able to use our standard manufacturing process, so the investment and risk in adopting resonant clock mesh technology was well worth it as all of our customers are clamoring for more energy efficient processor designs.”

Sooo ein Fuchs ;)

Ich glaube bei einem Anandtech-Artikel wurde mal gesagt, dass das Clock-Distribution-Network ca. 1/5tel bis 1/4tel des Stroms eines Kerns verbraucht. Je höher der Takt eines Kerns, desto höher sind auch die Anforderungen an dieses Netzwerk, und desto höher muss man auch die Spannung drehen, um einen ordentlichen Refernztakt zu bekommen.
Naffzigers Steckenpferd (eines von vielen) war ja auch die Optimierung des Clock-Distribution-Networks.

Und zum Hot Chips Foliensatz -> die sagen !Bulldozer! hat low-K.
Ich denke, dass es seinen Grund hat, warum IBM in East Fishkill und GloFo in New York gleichzeitig ihre Fabs hochfahren und davon sprechen, dass ein IBM-Prozess hochgefahren wird.
 
Sooo ein Fuchs ;)

Ich glaube bei einem Anandtech-Artikel wurde mal gesagt, dass das Clock-Distribution-Network ca. 1/5tel bis 1/4tel des Stroms eines Kerns verbraucht. Je höher der Takt eines Kerns, desto höher sind auch die Anforderungen an dieses Netzwerk, und desto höher muss man auch die Spannung drehen, um einen ordentlichen Refernztakt zu bekommen.
Naffzigers Steckenpferd (eines von vielen) war ja auch die Optimierung des Clock-Distribution-Networks.
Da gabs doch mal Folien beim BD Start, das sind so um ~10% max. Wenn die jetzt 10% von 10% verbessern, dann wirds insgesamt 1%, also etwas mager, aber der Ertrag ist bei getuntend high-end chips ja immer gering.
Hab mal schnell gegoogelt, und hier die Teile gefunden:
http://www.theregister.co.uk/2011/02/24/amd_bulldozer_core_isscc/page2.html

Und zum Hot Chips Foliensatz -> die sagen !Bulldozer! hat low-K.
Ich denke, dass es seinen Grund hat, warum IBM in East Fishkill und GloFo in New York gleichzeitig ihre Fabs hochfahren und davon sprechen, dass ein IBM-Prozess hochgefahren wird.
Jo, LowK, aber halt nicht Ultra LowK ;-)

Wenn sie das jetzt für 28nm fertig brächten, gäbs ein lustiges Rennen mit Intels 22mn *träum*
 
Nur nochmal zur Erinnerung:
Shanghai mit 4 Kernen & 45nm hatte kein ULK
Erst Istanbul mit 6 Kernen & 45nm hatte ULK.

Ich denke es ist durchaus möglich, dass GloFo von Bulldozer nach Piledriver ULK im Prozess mit einführt.

Ich frage mich, ob der Start von Istanbul in 45nm und ULK auch mit dem Start eines IBM-Prozessors in 45nm+ULK zusammengefallen ist ;)

Oder wann wurde der Xenos+Xenon-45nm-Single-Chip für die XBox 360 fertig?
Ich spekuliere mal wild:
GloFo kann das alleine nicht stemmen, erst wenn IBM hilft, oder wenn ein großer Konsolenchip geshrinked werden muss rentiert sich das.
 
Istanbul (Rev.D) hatte AFAIK kein ULK. Das kam erst bei der Rev.E...
 
Da gabs doch mal Folien beim BD Start, das sind so um ~10% max. Wenn die jetzt 10% von 10% verbessern, dann wirds insgesamt 1%, also etwas mager, aber der Ertrag ist bei getuntend high-end chips ja immer gering.
Hab mal schnell gegoogelt, und hier die Teile gefunden:
http://www.theregister.co.uk/2011/02/24/amd_bulldozer_core_isscc/page2.html
Bei einem voll ausgelasteten Core sind es 10%, bei einem typischen Int-Workload sind es ca. 16%.
Ausserdem ist in diesem Chart der L2 und Bus mit dabei.

@hot:
ich wollte den sachverhalt nur etwas plakativer machen.
ULK wird kommen, aber nur wenn IBM da mit zieht.
 
Zuletzt bearbeitet:
Da die Sosse wieder losgeht:
Warum kann GF ULK (nanoporöses low key) in 45nm und nicht in 32nm?
Es stand bei 32nm auf der Roadmap (Stand 2008 ) wird 2010 schon bei 45 nm eingeführt und bei 32nm weggelassen? ich versteh die Argument nicht?
Der "Beweis" ist eine ungenaue Aussage eines Chipdesigners? Wenn es auf einer IEDM Folie stehen würde o.K., aber eine Folie von Hotchips oder ISSCC?
 
Zuletzt bearbeitet:
Im Februar 2010 kam der Power7 in 45nm
Im April 2010 kam der Thuban im E0 Stepping mit ULK
Im Juli 2010 kam der Kombi-Chip GPU+CPU für die Xbox360 in 45nm

Der Power7+ sollte eigentlich Ende 2011 auf den Markt kommen.
Dieser wurde aber verschoben.
http://www.heise.de/ct/meldung/Glob...Produktion-in-New-York-gemeinsam-1406548.html

Am Standort East Fishkill fertigt IBM eigene Produkte, aber auch Bauelemente für andere Auftraggeber. Der High-End-Serverprozessor Power7 von IBM ist zurzeit noch in einer 45-nm-Version auf dem Markt, nach älteren Roadmaps (PDF-Datei) wollte IBM den 32-nm-"Shrink" Power7+ Ende 2011/Anfang 2012 einführen.

Edith sagt:
Nintendo bringt im Spätherbst die Wii U auf den Markt.
Wird der Prozessor ein SOI 32nm ULK?
Ich könnt wetten, das wird eine VLIW4-GPU wie in Trinity, nur weiß ich nicht, ob die CPU ein Piledriver wird, oder etwas in Richtung Power7+.
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten