AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

Ist eigentlich bekannt ob ZEN mit HDL-Library entwickelt wird?
Falls ja wäre das ein grosser Vorteil im Notebook, Lower Power und Server Bereich und ein deutlicher Nachteil im High End Desktop Breich.
 
Inwiefern? Und was ist der "klassische HPC Sektor" und was gehört deiner Meinung nach zum "modernen HPC-Sektor".
HPC=High Performance Computing. Da gibt es kein klassisch - nur High Performance.
Problemzonen:
1. Cache-Bandbreite
2. Breite der FP-Pipes/maximaler FP-Durchsatz.
3. AGUs
 
Ist eigentlich bekannt ob ZEN mit HDL-Library entwickelt wird?
Falls ja wäre das ein grosser Vorteil im Notebook, Lower Power und Server Bereich und ein deutlicher Nachteil im High End Desktop Breich.

Warum? AMD sagt doch nur, dass durch die HDL-Library Platz und Energie gespart ( effizienter genutzt ) werden. Das heißt doch nicht, dass dadurch die Performance verloren geht.

Selbst wenn das der Fall ist, dürfte sich der HDL Compiler auch auf Performance parametrisieren lassen.
Es muss doch immer ein Kompromiss zwischen Performance, Energie- und Flächenverbrauch gefunden werden.
 
Problemzonen:
1. Cache-Bandbreite
2. Breite der FP-Pipes/maximaler FP-Durchsatz.
3. AGUs
Zen mag keine reine HPC-Architektur sein, so wie sagen wir mal ein Itanium oder handtellergroße Power 5, aber solche reinen HPC-Architekturen sind sowieso nicht mehr gefragt (siehe z.B. https://en.wikipedia.org/wiki/File:Processor_families_in_TOP500_supercomputers.svg). Wichtig ist ja letztlich nur die Effizienz, sprich Performance pro Watt oder pro Dollar, denn diese großen Rechenlasten sind eh auf viele Kerne verteilbar, dann ist auch egal, ob es hundert oder tausend sind, wenn sie den gleichen Platz im Rack einnehmen. "Wieviele Teraflöpse kriege ich in das RZ reingestopft?" ist doch nur die Frage.
 
Ist eigentlich bekannt ob ZEN mit HDL-Library entwickelt wird?
Falls ja wäre das ein grosser Vorteil im Notebook, Lower Power und Server Bereich und ein deutlicher Nachteil im High End Desktop Breich.

Vermutlich wird Zen teilweise mit Libs entwickelt. Da der Kern nur noch wenig Platzanteil am Gesamtprodukt hat könnte ich mir vorstellen, dass er noch klassisch per Hand optimiert wird und die Caches, Interconnect und MCM mit den Libs. Ist aber nur eine Vermutung, eine Ankündigung ist mir nicht bekannt und vermutlich müssen wir bis auf erste Die-Shots oder den Launch warten, bis wir es genauer wissen.
 
Vermutlich wird Zen teilweise mit Libs entwickelt. Da der Kern nur noch wenig Platzanteil am Gesamtprodukt hat könnte ich mir vorstellen, dass er noch klassisch per Hand optimiert wird und die Caches, Interconnect und MCM mit den Libs. Ist aber nur eine Vermutung, eine Ankündigung ist mir nicht bekannt und vermutlich müssen wir bis auf erste Die-Shots oder den Launch warten, bis wir es genauer wissen.

Ob dass soviel Sinn macht ? Mit HDL-Library als Alleinstellungemaerkmal besteht die seit langem mal wieder Chance im Low-Power Beriech Intel selbst dann zu überflügeln, wenn ZEN von der IPC nicht an Skylake herankommt. Gleiches gilt für Serverprozessoren mit vielen Kernen und Low-Power APU's. Da AMD nur sehr beschränkte Entwicklungsressourcen hat wäre es wahrscheinnlich sinnvoller erst im nächsten Entwicklungschritt mit Zen+ noch einige ergänzende Handoptimierungen vorzunehmen um dann den High-End Desktop anzugehen.
 
Wenn man bedenkt, dass Intel in 14nm schon Probleme hat die Wärme der Kerne abzuführen, warum sollte es AMD anders gehen? Wenn man die Kerne noch kleiner macht hätte man vermutlich nicht viel gewonnen. Um deine Vorteils-Beurteilung zu nehmen, angenommen AMD hohlt IPC-mäßig auf, erreicht aberwegen thermischer Probleme nicht die Taktraten von Intel, hätte AMD nichts gewonnen und würde in Tests wieder nur mit Intels Mittelklasse mithalten.
 
Kann nicht AMD aus den "Problemen" von Intel gelernt haben, indem sie die eigenen 14nm Kerne nicht so dicht packen?

Das war ja mein Argument weshalb ich vermute, dass AMD die HD-Libs nicht für die Kerne verwendet sondern nur für den Rest. Wenn ich micht recht entsinne erreicht man mit handoptimierten Schaltungen auch höhere Schaltfrequenzen. Excavator in Carrizo ist wohl auch teilweise handoptimiert. Vielleicht sind die Libs aber weiterentwickelt und AMD baut tatsächlich einen komplett synthetischen Kern. Waren die "Cats" nicht komplett mit den Libs erstellt? Die kamen ja auch nur auf etwas mehr als 2 GHz. Das wäre für Zen zu wenig.
 
Waren die "Cats" nicht komplett mit den Libs erstellt? Die kamen ja auch nur auf etwas mehr als 2 GHz. Das wäre für Zen zu wenig.

Das ist wohl mehr dem Design, der Architektur und dem Herstellungsprozess geschuldet und hat nicht unbedingt was mit der HDL Lib zu tun.
Von Hand optimieren heiß auch nicht unbedingt, dass direkt an den Transistoren rumgefummelt wird.
Bei meinem C-Compiler kommt auch vieles darauf an, wie ich das Programm aufbaue, Threads einsetze, und wie die Compileroptionen für einzelne Module gewählt werden. Ob auf Geschwindigkeit oder Speicherverbrauch optimiert werden soll etc..
Da haben dann auch manche Programme im Nachhinnein das fliegen gelernt.
Wer sagt denn auch, dass in der HD-Lib nur auf Low Power optimierte Module vorhanden sind.
Ich meine letztens mal gelesen zu haben, dass da für jedes Modul, vom einfachem Gatter bis zur kompletten ALU, eine vielzahl an Möglichkeiten vorhanden ist. Low Power optimierte, Platzoptimierte, High-Speed optimierte etc. Handoptimierung kan nun auch darin bestehn, dass bei kritischen Modulen die Optimierung umgestellt wird und nicht alles mit der gleichen Optimierungseinstellung compiliert wird.
 
Das war ja mein Argument weshalb ich vermute, dass AMD die HD-Libs nicht für die Kerne verwendet sondern nur für den Rest. Wenn ich micht recht entsinne erreicht man mit handoptimierten Schaltungen auch höhere Schaltfrequenzen.
Ja, aber um Takt gehts ja nicht mehr, das wurde mit Bulldozer ad Acta gelegt. Es geht um Perf/Watt und da sind die HD-Libs sogar besser.
Excavator in Carrizo ist wohl auch teilweise handoptimiert.
Wär mir jetzt neu, Carrizo war doch das erste Design mit den HD-Libs. Man hatte thermische Probleme mit den Kernen, weswegen ein Teil der XBar dazwischen gelegt wurde, das könnte man auch bei Zen so handhaben. IBM baut die Zwischenräume z.B. mit L3-Cache zu.
Vielleicht sind die Libs aber weiterentwickelt und AMD baut tatsächlich einen komplett synthetischen Kern. Waren die "Cats" nicht komplett mit den Libs erstellt? Die kamen ja auch nur auf etwas mehr als 2 GHz. Das wäre für Zen zu wenig.

Die Katzen waren ein synt. Design aber die HD-Libs wurden noch nicht verwendet. Der Katzentakt sagt außerdem wenig aus, das war einfach das Desginziel. Zens Designziel wird höher liegen, entsprechend wird man das Design anpassen. Dass HD-Libs kein Hindernis sind, sieht man an den durchgesickerten Taktraten für den AM4-Carrizo.
Wenn man bedenkt, dass Intel in 14nm schon Probleme hat die Wärme der Kerne abzuführen, warum sollte es AMD anders gehen?
Weil AMDs Kern kleiner ist, und z.B. keinen 256bit FMA-Befehl pro Takt durch die Rechenwerke schleußt. Das ist recht energieintensiv, da mann in dem Fall wenig powergaten kann.
 
Multi Zen Generations ...

Der Plan klingt gut (gut auch, dass Sie überhaupt einen haben), mal sehen ob Sie's hinkriegen und nicht doch gleich wieder AM4+ und 4++
raushauen, weil irgendein kleines Power-Requirement mal wieder einen Extra-Pin braucht.
 
Multi Zen Generations ...

Der Plan klingt gut (gut auch, dass Sie überhaupt einen haben), mal sehen ob Sie's hinkriegen und nicht doch gleich wieder AM4+ und 4++
raushauen, weil irgendein kleines Power-Requirement mal wieder einen Extra-Pin braucht.
Eigentlich nix Neues, das mit Zen+ wurde schon früher gesagt, aber die Bemerkung hier ist noch interessant:
And by the way, because we have this reuse approach for cores, you will see us with Zen cores in the high-end desktops first and then the servers from our overall products standpoint.
 
Wort! WCCFtech und was Neues, die recyclen immer 98% von vorherigen Artikel und schreiben einen Satz oben drüber.
Zen+ war bekannt, ja, aber several Zen+ und beyond?? Ich mein so richtig als Aussage?
Hatte ich bis dato so nicht gehört.
Ist aber von Papermaster himself.
 
ja aber "Zen+ and beyond" heißt ja gar nichts, das heißt eigentlich nur, daß AMD weiterhin CPUs bauen will und nicht plant, den Geschäftsbetrieb einzustellen oder sich auf Grafikkarten zu beschränken. Ich mein, darüber kann man ja schon froh sein :] aber so eine richtige "Information" ist das ja nun nicht gerade...

Der Sockel AM4+ ist ja eigentlich sehr lange nutzbar, weil da ja kaum noch etwas CPU- (oder auch GPU-)Spezifisches drin passiert. Selbst die Stromversorgung wird innerhalb des SoC geregelt. Eigentlich hätte man auch bei FM2+ bleiben können, wenn da nicht der Wechsel auf DDR4 notwendig gewesen wäre. Also eigentlich könnte man dabei bleiben, bis HDMI 3.0, USB 4.0, DDR5 o.ä. anstehen. Eigentlich.
 
Das war ja mein Argument weshalb ich vermute, dass AMD die HD-Libs nicht für die Kerne verwendet sondern nur für den Rest. Wenn ich micht recht entsinne erreicht man mit handoptimierten Schaltungen auch höhere Schaltfrequenzen. Excavator in Carrizo ist wohl auch teilweise handoptimiert. Vielleicht sind die Libs aber weiterentwickelt und AMD baut tatsächlich einen komplett synthetischen Kern. Waren die "Cats" nicht komplett mit den Libs erstellt? Die kamen ja auch nur auf etwas mehr als 2 GHz. Das wäre für Zen zu wenig.
Selbst die HP-Libs sind platzsparend (9-Track). Nur die Ultra High Performance-Libs kommen noch etwas näher an die alten Formate (10.5-Track zu 12-Track). Man kann die Libs wohl auch mischen. Und kritische Pfade können weiterhin handgetuned werden. Das ist schon ein wenig wie mit Assembler und Compiler-Code.

Die Cat Cores sind ja schon eine Weile vor Zen begonnen worden. Die Tuning-Möglichkeiten auch dank neuer Tools werden auch dort immer besser. Und es kann sogar zu einem besseren Ergebnis führen, wenn man den Lösungsraum durch beschleunigte Iterationen absuchen kann. Begänne man nach Simulationen, welche auch toolabhängig gut sind, ein full custom design, kostet das Zeit, bis man genauer weiß, wie es sich verhalten wird.
 
Da die FPUs aber einerseits im ganzen SoC-Die nur relativ wenig Platz einnehmen, wird man mit Verdichtung da auch wenig sparen können. Andererseits ist die FPU der Teil, wo am meisten Hitze entsteht, und man wird sicherlich jedes Mittel nutzen, um den Bereich zu entzerren, um Hotspots zu minimieren. Vielleicht kriegt man es auch hin, die möglichst länglich zu formen, oder zick-zack-förmig, wobei man die Zwischenräume mit anderen unkritischen Bereichen füllt, die kühl bleiben. Die reine Flächenersparnis ist für die FPU bestimmt ziemlich nachrangig.

Beim Cache oder bei anderen Teilen kann man sicherlich mehr einsparen. Man erinnere sich an die Optimierung der Shader von der 3800er zur 4800er Radeon, da hat man einen kleinen Block optimiert, den man dann verachthundertfachen konnte, was dem Verhältnis Handarbeit zu Flächenersparnis ja extrem zugutekommt.
 
Ich frag mich, warum es darüber überhaupt ne Diskussion gibt. XV ist 20% kleiner und deutlich Leistungsfähiger bis ca. 3,5GHz, erst ab da gibts offenbar ne Stagnation bei Perf/W, aber er ist ja immer noch kleiner und damit billiger. Ich seh das aber so, dass die hohen Taktraten bei den Verkleinerungen 14nm und weniger sowieso nicht mehr zielführend sind, das sieht man ja bei Intel recht gut. Von daher wird man bei Zen schon jeden HDL-Vorteil nutzen, der sich anbietet, denn desto einfacher ist es in die Breite zu gehen. AMD plant ja offenbar ein Die mit 16 Zen-Kernen, das geht nur dank HDL mMn sinnvoll, da AMD sicher keine 600mm²-CPUs designt.
 
Zuletzt bearbeitet:
Da die FPUs aber einerseits im ganzen SoC-Die nur relativ wenig Platz einnehmen, wird man mit Verdichtung da auch wenig sparen können. Andererseits ist die FPU der Teil, wo am meisten Hitze entsteht, und man wird sicherlich jedes Mittel nutzen, um den Bereich zu entzerren, um Hotspots zu minimieren. Vielleicht kriegt man es auch hin, die möglichst länglich zu formen, oder zick-zack-förmig, wobei man die Zwischenräume mit anderen unkritischen Bereichen füllt, die kühl bleiben.
Das ist nicht unbedingt eine optimale Lösung. Wenn du die FPU auf einer sehr langen Linie auffädelst (, damit die Wärme jeweils zu den Seiten abfließen kann), muss auch die Information in Form von Bits einen großen Weg durch dein Halbleiterelement bzw. die Verdrahtungsschichten direkt über dem Halbleiter zurück legen. Das kostet nicht nur Zeit und damit Latenz, sondern jeder Millimeter kostet bei den Frequenzen auch Energie. Du bekommst dann zwar die Wärme besser weg, produzierst jedoch auch mehr davon.
 
XV=Excavator
BD=Bulldozer
PD=Piledriver
SR=Steamroller
 
OBrian, danke für's Erläutern.

Bzgl. FPU:
Die gibt es dann ja auch 8-fach oder gar 16-fach. Ich denke, dass es da mit der Fläche eher um static power geht. Intel Cores haben etwa 75% static power, wenn aktiv und kein power gating möglich ist. D.h. 25% leisten Arbeit.

Kompakt ist auch aus Gründen wie von miriquidi geschildert wichtig. Die Hot Spots kämen dann durch das Pipelining, da die Transistoren von Takt zu Takt durch aufeinander folgende Bedehle genutzt werden. Vllt. hat AMD doch die kleinen u. nicht ge-pipeline-ten (gibt's da schönere Wörter dafür) Cat-FMUL-Units genommen, wie der Patch erahnen lässt.

Meine neueste Erkenntnis: nicht ganz so fette FPUs reduzieren den Voltage Droop u. erlauben damit geringere Spannung dank kleinerem Guard Band u. sogar höhere Takte.
 
Zurück
Oben Unten