AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

Mal was anderes: Wenn jeder ZEN Chip aus 4 Kernen und L3 Cache besteht und mehrere davon auf einem Interposer zusammengeschaltet werden können, könnte es dann sein, dass der Memmory Controler mit PCIe, USB, ARM Security Prozessor, etc. auf einem extra Chip(28nm) sitzt?
Bei den GPUs genauso?
AMD fertigt dann nur noch CPU, GPU, IO-Prozessor und verknüppelt diese mit HBM je nach Bedarf auf einen Interposer?

Wäre ein Low End Chip mit 4GB HSA, Quadcore ZEN, GPU und IO-Prozessor im System günstiger zu fertigen als ein Carrizo mit externem RAM?
Dadurch dass kein externes RAM benötigt würde, wäre die Lösung zumindest platzsparender und die Mainboards könnten günstiger gerfertigt werden.
 
Zuletzt bearbeitet:
Ja das ist mir auch aufgefallen als erstes. Doch dann dachte ich, dass AMD schließlich die IPC erhöhen will und nicht den Durchsatz. Ich könnte mir denken, dass alle durchsatzkritischen SKUs mit HBM ausgestattet sein werden oder eben als APU sogar einen deutlich höheren Durchsatz erzielen können. Da wird der L3 Cache vielleicht gar nicht so eine kritische Komponente in Serverumgebungen sein da der Workload deutlich öfter über die GPU geht.
Glaub ich eher weniger, z.B. Datenbanken mögen große Caches und die IPC ist über die Cache-Hitrate ja direkt von der Cachegröße abhängig.

Jetzt habe ich noch mal eine "dumme" Frage. Wie ist der Fahrplan - bis diese Infos offiziell werden. Kurz wann wird denn damit gerechnet, dass Zen offiziell der Welt vorgestellt wird?
Gerüchtemäßig Ende 2016. Erste BD-Infos gabs im Nov. 2009, damals war BD für Ende 2011 geplant ... von daher könnte schon etwas zu Zen kommen.
 
Nach den Bildern endet das NDA am 6. Mai

edit: Oh, das war gleichzeitig.
...das war Zeitgleich interpretiert! The sixt of May will be eye opening!
to be continued... stay tuned!
 
Mal was anderes: Wenn jeder ZEN Chip aus 4 Kernen und L3 Cache besteht und mehrere davon auf einem Interposer zusammengeschaltet werden können, könnte es dann sein, dass der Memmory Controler mit PCIe, USB, ARM Security Prozessor, etc. auf einem extra Chip(28nm) sitzt?
Bei den GPUs genauso?
Nee, das willst Du nicht, denn der Interconnect wird sicherlich nicht schneller als dual-Channel DDR4 werden. Außerdem würde das wieder die Latenz verschlechtern (Deswegen wurde der Speicherkontroller ab dem K8 schließlich integriert).. ne also Speicherkontroller bleibt, PCIe auch, weil das vermutlich zum Interconnect gehört. Will man ne fette APU, dann 1-2 CPU-Dies mit je 8 Kernen und je Dual channel DDR4 plus ein GPU-Die mit aufgesetztem HBM-VRAM. Dann haben CPU+GPU jeweils ihren eigenen Speicher und sind enger (geringere Latenz) und schneller (höhere Bandbreite) als über PCIe angebunden.

Sowas wäre dann quasi ein 3P-NUMA-System. Wenn man NUMA-Unterstützung hat - gut, wenn nicht .. übel. Aber zumindest im Serverbereich ist das seit den ersten Opterons Usus .. von daher wärs für die Zielgruppe wohl kein Beinbruch.
 
Ich versteh nicht ganz, weshalb praktisch jeder hier die Folien für ernst nimmt - klar, es wirkt ein bisschen wie ein Tropfen Wasser nach langer Durststrecke, aber letztlich ist das gezeigte Pipeline-/Cache-Schema doch äusserst schlicht, und der Folienstil nicht gerade schwer zu faken. Und dennoch wird aufgrund von ein paar Strichlein bereits auf IPC und co. zu schliessen versucht.
 
Ganz vergessen: warum nicht noch 128GB SSD mit auf den Interposer.
Könnte mir auch vorstellen, dass die Radeon 4XX Serie aus 1GPU Modul für 470, 2Module für 480 und 4Module für 490 zusammenstellt.
 
Ich versteh nicht ganz, weshalb praktisch jeder hier die Folien für ernst nimmt - klar, es wirkt ein bisschen wie ein Tropfen Wasser nach langer Durststrecke, aber letztlich ist das gezeigte Pipeline-/Cache-Schema doch äusserst schlicht, und der Folienstil nicht gerade schwer zu faken. Und dennoch wird aufgrund von ein paar Strichlein bereits auf IPC und co. zu schliessen versucht.

Ich glaube du verstehst den Sinn eines Speku Forums nicht so ganz ;)
 
Ich versteh nicht ganz, weshalb praktisch jeder hier die Folien für ernst nimmt - klar, es wirkt ein bisschen wie ein Tropfen Wasser nach langer Durststrecke, aber letztlich ist das gezeigte Pipeline-/Cache-Schema doch äusserst schlicht, und der Folienstil nicht gerade schwer zu faken. Und dennoch wird aufgrund von ein paar Strichlein bereits auf IPC und co. zu schliessen versucht.
ja, wenn Du einen anderen Vorschlag hast? Einfach nichts zu tun und sich weiter zu langweilen ist doch auch keine Lösung. Dann besser verspekulieren. Klar können das Fakes sein, wobei ich da eher nicht dran glaube. Sind ja jetzt auch nicht so phantastische Details. Eigentlich sind es überhaupt keine Details, alles recht grob gehalten. Außerdem stellt sich nächste Woche eh heraus, ob sie echt sind. Hoffentlich gibt es dann auch ein paar mehr Details.
 
Ist doch völlig egal...
 
Wird die ganze Multichip/Modul-Interposer Konstruktion nicht relativ teuer ?
Oder wäre ein möglicher einzelner umfangreicher Chip mit ZEN-CPU Units/Cores
und einer äquivalenten Rechenleistung noch teurer ?

Da dürfte es wohl eher darum gehen was teurer ist.
Die Multichip Geschichten sind sicherlich vom Aufbau her teurer allerdings steigt mit der Größe und Komplexität der Chips auch die Ausfallwahrscheinlichkeit bei der Produktion.
Gerade in der Anfangszeit von neuen Herstellungsprozessen könnte aufgrund der geringeren Ausbeute die Multichip Geschichte wiederum billiger sein.
 
Welche Diegröße käme für so einen (fiktiven) 14nm 4 Kerner in Frage? 100-150 mm2? Oder doch eher Richtung 200mm2?
 
@ sompe:

Die Interlagos Opteron der 638x-Reihe bestehen doch auch aus 2 Dies, hat diese Fertigungsweise den gleichen Hintergrund wie eventuelle ZEN-CPUs auf einem Interposer ?

Über welches Protokoll kann die Kommunikation zwischen den Dies erfolgen ?
Es ist bestimmt schon einiges an Bandbreite erforderlich, falls dort eine starke GPU zum Einsatz kommt.
 
@ sompe:

Die Interlagos Opteron der 638x-Reihe bestehen doch auch aus 2 Dies, hat diese Fertigungsweise den gleichen Hintergrund wie eventuelle ZEN-CPUs auf einem Interposer ?

Über welches Protokoll kann die Kommunikation zwischen den Dies erfolgen ?
Es ist bestimmt schon einiges an Bandbreite erforderlich, falls dort eine starke GPU zum Einsatz kommt.

Halt eine Weiterentwicklung des Hypertransports .... wird doch auch jetzt schon in den APUs verwendet (Onion und wies alles genannt wird). Auch wenn es nun ggf GMI genannt werden soll ...

ps wer behauptet Hypertransport sei nicht im Kaveri hat sich noch nie die BKDGs genau angeschaut - die internen Links sind HT-Derivate ... und können über HT-Commandos auch angesprochen werden (schon lustig - ein DIE aber intern 2 Produkte (CPU und GPU) die miteinander reden)

Bisher siehts wie bereits schon erwähnt nach NUMA zwischen den CPUs und HUMA zu GPUs und IGP aus ... ginge auch mit Excavator !

Bandbreite:
2x 32 Bit Hypertransport @ 3,2GHz hätte ersteinam ausreichend Bandbreite .. rd 100GB/s
 
Zuletzt bearbeitet:
ja, wenn Du einen anderen Vorschlag hast? Einfach nichts zu tun und sich weiter zu langweilen ist doch auch keine Lösung. Dann besser verspekulieren. Klar können das Fakes sein, wobei ich da eher nicht dran glaube.
Es wunderte mich bloss, weil sonst jede geleakte oder "geleakte" Folie merklich angezweifelt wurde :) Aber stimmt, da das aufgedruckte Datum sehr bald ist, wird sich das ganze schnell aufklären :)
Ich geniesse die Hardware-Spekulationen immer ziemlich, und wünsche von AMD mal wieder potente Architektur, die auch als solche beim Konsumenten ankommt. Die aktuell gezeigte ist so schlicht dargestellt, dass ich auch vorläufig mal glaube, dass die berüchtige "Wald-und-Wiesen"-Stärke verbessert werden kann. Kann man nicht direkt aus den Folien so ablesen, aber eine Folie repräsentiert auch immer das Image, das man vermitteln will - und aktuell sieht dieses vermittelte Image nicht nach "genial und komplex und nischenhaft" aus. Werte ich mal als Vorteil.
 
@ sompe:

Die Interlagos Opteron der 638x-Reihe bestehen doch auch aus 2 Dies, hat diese Fertigungsweise den gleichen Hintergrund wie eventuelle ZEN-CPUs auf einem Interposer ?

Über welches Protokoll kann die Kommunikation zwischen den Dies erfolgen ?
Es ist bestimmt schon einiges an Bandbreite erforderlich, falls dort eine starke GPU zum Einsatz kommt.

Keine Ahnung aber möglich ist es. Vielleicht wollten se sich aber auch einfach nur die Entwicklungskosten für einen so großen Chip für eine vermutlich recht kleine Serie sparen.
Das kann wohl nur AMD selbst beantworten. :)
 
Es wunderte mich bloss, weil sonst jede geleakte oder "geleakte" Folie merklich angezweifelt wurde
Also ich bewerte Infos aufgrund ihrer Plausibilität. Wenn einer schreibt, AMD stellt ab morgen im 17-nm-Prozeß von Toshiba lizensierte Sandy-Bridge-CPUs her, die als Grafik einen VSA100 von 3DFx enthalten, dann kommt mir das nicht so glaubwürdig vor wie wenn einer behauptet, AMD würde nächste Woche ein paar Details zur länger angekündigten neuen Architektur verlieren, und diese sähe ziemlich so aus wie das, womit sie früher schonmal erfolgreich waren.

Aber einfach reflexartig "Fake" zu rufen, wenn überhaupt irgendwas auftaucht, ist auch zu einfach.

Letztlich ist es ja auch egal, ob wir uns jetzt irren oder nicht. Es reicht, wenn wir wissen, was wir kaufen sollen, sobald es im Handel erhältlich ist. Bis dahin ist ja noch Zeit.


Die Interlagos Opteron der 638x-Reihe bestehen doch auch aus 2 Dies, hat diese Fertigungsweise den gleichen Hintergrund wie eventuelle ZEN-CPUs auf einem Interposer ?
Ich würde meinen nein, denn die Opterons aus zwei Dies in einem Package sind ja einerseits aus Kostengründen so, andererseits weil man so relativ einfach auch den Speichercontroller mit verdoppelt, sprich vier Speicehrkanäle pro Sockel erhält.

Aber so eine Interposer-Geschichte macht man nicht aus Kostenspargründen, weil man da sicherlich nicht die normalen Dies aufbringen kann, das müssen wohl spezielle sein, die extra für Interposer-"Montage" ausgelegt sind. Interposer setzt man ein, weil man nur so HBM-RAM verbauen kann, der enorme Bandbreite bietet. Ist also in erster Linie eine leistungsorientierte Entscheidung.
 
Welche Diegröße käme für so einen (fiktiven) 14nm 4 Kerner in Frage? 100-150 mm2? Oder doch eher Richtung 200mm2?

Naja, nehmen wir für einen Zen-Kern weniger als 10mm² an, vielleicht 7 wie bei Broadwell. Sind 28mm² für die Kerne. Ein halber MB Cache hat vielleicht 1mm², mit 10 MB L2 und L3-Cache sind es also 48mm² für vier Kerne und Caches. Dazu kommen zwar noch Interconnects, MCs etc., aber sehr groß dürfte das tatsächlich nicht sein. Auf jeden Fall unter 100mm².
 
A
Aber so eine Interposer-Geschichte macht man nicht aus Kostenspargründen, weil man da sicherlich nicht die normalen Dies aufbringen kann, das müssen wohl spezielle sein, die extra für Interposer-"Montage" ausgelegt sind. Interposer setzt man ein, weil man nur so HBM-RAM verbauen kann, der enorme Bandbreite bietet. Ist also in erster Linie eine leistungsorientierte Entscheidung.

Es geht immer nur ums Kosten sparen.
Ein Interposer bietet den Vorteil, dass die Chips wesentlich mehr Kontakte nach außen bringen können und die Kontaktflächen auf dem Chip kleiner ausfallen können. Zudem sind nicht so starke Leitungstreiber bei den Kontakten, die über den Interposer zu anderen Chips geleitet werden, nötig. Dadurch spart man Fläche beim Chip. Es können durch den Interposer auch schnellere Verbindungen zwischen den Chips realisiert werden als über eine normale Leiterplatte. Das ermöglicht anstatt eines großen Chips mehrere kleine zu verwenden, die mit besserer Produktionsausbeute und somit günstiger hergestellt werden können. Beim testen ergeben sich auch noch Vorteile.
Die entsprechenden Chips auf einem Interposer veringern auch den Aufwand beim eigentlichem Mainboard, dass dadurch kleiner, mit weniger Lagen und somit günstiger hergestellt werden kann.
Wir sind wohl an den Punkt angelangt, dass es günstiger ist einen Interposer zu verwenden statt immer größere Chips mit schlechtem Yield zu produzieren. Zudem können die Chips auf dem Inteposer in den für diese optimalem Fertigungsprozeß hergestellt werden. Kein Kompromiss mehr zwischen schneller CPU und massiv paralleler GPU in der Fertigung.
 
Was mir an der letzten Folie sauer aufstößt:

"All-inclusive caches"

Das hieße, dass 2 MB der 8 MB L3 schon mal für die Katz wären, für den Servereinsatz könnte ein weiteres Megabyte für nen Directorycache draufgehen ... bleiben effektiv nur noch 5 MB L3 übrig - für 4 Kerne & 8 Threads wäre das nicht gerade üppig.
Finde das auch etwas fraglich im Moment. Allerdings hat zB ein i5 auch nur 5 MB L3 effektiv und verliert zumindest bei maximal 4 Threads kaum was an Performance gegenüber einem i7. Zudem sollte der 512 KB L2 von Zen auch etwas Druck vom L3 nehmen. Ich denke insgesamt wird die Zen Cache-Hierarchie um einiges besser funktionieren als bei Bulldozer, egal ob all-inclusive oder mit Victim L3. Ich finde den L3 bei Bulldozer irgendwie deplatziert. Eventuell wäre es kein Nachteil bzw sogar von Vorteil gewesen, auf den L3 komplett zu verzichten und stattdessen zwei "Kernen" 4 MB L2 zu spendieren, ähnlich wie seinerzeit beim Core 2. Und mehr L1D hätte dann sicherlich auch nicht geschadet.


Mal was anderes: Wenn jeder ZEN Chip aus 4 Kernen und L3 Cache besteht und mehrere davon auf einem Interposer zusammengeschaltet werden können, könnte es dann sein, dass der Memmory Controler mit PCIe, USB, ARM Security Prozessor, etc. auf einem extra Chip(28nm) sitzt?
Ich denke nicht, dass jeder Zen Chip aus lediglich 4 Kernen besteht. 4 Zen Kerne inklusive L3 dürften vermutlich nicht mal 50 mm² brauchen. Auf einem Performance oder gar High-End Chip von >300 mm² passen wesentlich mehr Kerne. Dieser 4-Kern Zen Cluster ist im Grunde der Nachfolger des Bulldozer Moduls. Nur weniger komplex auf Kernebene und mit mehr Bums. Ähnliches hatte man ja schon mit der Jaguar CU gemacht. Dort konnte man dann auch relativ einfach zwei dieser CUs auf einem Chip unterbringen für die Konsolenprozessoren. Halt Baukastenprinzip, ein Zen Cluster für mobile Ableger, 2 Cluster für Desktop Ableger, 4 Cluster für Server Ableger. So oder so ähnlich könnte das dann ausschauen. Daher wird es auch keinen Zen Chip mit weniger als 4 Kernen geben. Maximal teildeaktivierte Zen Chips könnten weniger Kerne aktiviert haben.


Welche Diegröße käme für so einen (fiktiven) 14nm 4 Kerner in Frage? 100-150 mm2? Oder doch eher Richtung 200mm2?
150 mm² mit Carrizo like iGPU dürfte gut hinkommen. Ohne iGPU sollte auch <100 mm² machbar sein. Letztes wird es aber vermutlich nicht geben.
 
AMD hat so seine Vorteile - besonders wenn man mal sich den schlampigen Speichercontroller in den Intel-CPUs (DDR2 und DDR3) anschaut - teilweise 100fach bis 1500fache Anzahl von Speicherfehlern (Pagefaults) ... und warum kaufen dennoch so viele Intel - weil halt Intel überall vorgesetzt wird und Intelfehler nicht so schlimm dargestellt werden wie AMDfehler!

Da wir im 3DC jetzt mal das Thema aufgegriffen haben: Was genau meinst du? Speicherfehler kommen vor wenn DRAM defekt ist oder die Software schlampig programmiert ist. Führe das doch mal bitte nähre für uns aus.
 
Zurück
Oben Unten