AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

Also es wäre auf jeden Fall schlau wenn man auch einen halben Zen mit 8/16 und Dual Channel anbieten könnte.

Wenn der Interconnect gut ist, könnte das auch heißen die GPU-Kerne werden auf einem anderen Die gefertigt? Damit könnten die ihre APUs/CPUs super konfigurieren, und man würde im Endeffekt weniger Ausschuss haben, wenn man z.B. zwei gute CPU-Module mit einem guten GPU-Modul zu einer High-End-APU kombinieren könnte.
 
Ich gehe eigentlich auch von einem Dualcontroller aus, ähnlich wie bei Kaveri, der sowohl DDR4 als auch HBM ansprechen kann. Interesant ist auch die Meldung, dass die kommende R9 395X als Dual-GPU mit doppelten Fiji auf einem Interposer kommen soll mit HBM als "Fiji VR". Auf die Auswirkungen bin ich echt gespannt. Das wären dann erstmal zwei Prozessoren auf einem Interposer - noch zwei homogene - doch der Erfahrungswert den das gibt für die kommenden heterogen bestückten Interposer, zeigt mir die enge Verzahnung der Entwicklungsabteilungen. Daher muss man wohl auch davon ausgehen, dass die GPU und CPU Roadmaps mitlerweile eine enorme Abhängikeit zueinander haben, die man berücksichtigen muss .
 
Ich tippe eher darauf das es pro CPU DIE 2 Speicherkanäle für Steckmodule geben wird und die APUs zusätzlich noch weitere Kanäle für weiteren HBM Speicher auf dem Prozessorträger erhalten werden. Das könnte man in einem CPU Gehäuse unterbringen und HBM als Grundspeicher könnte für die nötige Speicherbandbreite für schnellere GPUs sorgen und dient damit auch als Grundspeicher. Wer mehr RAM benötigt erweitert ihn dann mit DDR4 Modulen.
Damit könnten die CPU und die GPU auf einen gemeinsamen, schnellen Speicher zugreifen und 0815 Programme in den normalen RAM Speicher ausgelagert werden.
Dieser integrierte Speicher müßte auch nicht Platz für den gesammten Grafikspeicher haben sondern eher eine Rolle wie der EDRAM bei Konsolenchips einnehmen. Oft benötigte Daten die viel Bandbreite beanspruchen landen dann darin und der normale RAM Speicher schluckt die nicht so oft benötigten Speicherfresser.

An einen CPU und einem GPU Kern unter einem Deckel glaube ich weniger da diese Bauweise für die Wärmeableitung ein echtes Problem ist.
Sind nicht beide DIE exakt auf einer Höhe kann der Kühler/Deckel nicht plan aufliegen. Dieses Problem kann wiederum für zusätzlichen Ausschuss sorgen. Speicher entwickelt da weit weniger Hitze, ist aber schon heute ein limitierender Faktor für die Grafikperformance der APUs.
 
Zuletzt bearbeitet:
Also wegen dem Deckel seh ich da jetzt keine Probleme. Das ist ja schon jahrelang etablierte Technik. Siehe hier z.B.
http://semiaccurate.com/2013/04/02/global-foundries-talks-about-tsvs-on-20nm/

On the 2.5D side you can pick any interposer size you want up to almost the reticle limit, 32x26mm to be exact. If 832mm isn’t enough for you, IBM can go bigger but not for the same price ballpark, think orders of magnitude more than increments here though. That said, IBM has claimed to be able to do more than 50x50mm interposers, but you had better be making things with Power 7+ margins if you do. That said they are pretty, not to mention pretty active.

GloFo_Amkor_2.5D_stack.png


The GloFo version of the interposers will be made on their 65nm line at Fab 7 in Singapore. From there they are shipped to an OSAT along with the full thickness wafers for backgrinding and assembly. Some foundries are doing it all themselves but GloFo is working with a partner ecosystem, Amkor is mentioned prominently in their presentations but others are right there too. This partner approach has the short-term ‘cat herding’ problem but long-term it provides both standards and options for customers. SemiAccurate feels that the partner approach is the better one long-term, second sourcing means a lot to potential customers.
Hier findet offensichtlich eine Standardisierung statt für Zulieferer auf Basis des Power 7+ Interposers von IBM.

"An die Stirn Klatsch" - Klar wie jetzt Skybridge aussehen wird!

Edit:
Interposer Roadmap?
R9 395X (2x GPU+HBM)->Skybridge (x86+GPU(+ARM) oder ARM+GPU+DDR4?) ->Zen (High Performance x86+GPU+HBM(+ARM?)

Und natürlich auch diverse andere I/O oder analoge Teile Verbesserungen
 
Zuletzt bearbeitet:
Und entwckeln die beiden zusätzliche DIE auf dem Träger auch so viel Hitze?
Kommen zusätzliche DIE mit drauf die nur wenig Abwärme besitzen ist das kein Problem. Das bekommt zur Not auch ein Wärmeleitpad hin. Abstriche bei der Wärmeübertragung sind also verschmerzbar. Auch ist es ein deutlichern Unterschied ob wir über ein Produkt reden das ein paar hundert € kostet oder ob es in die Tausende geht. Ist die Gewinnspanne hoch genug dann kann man auch mit mehr Ausschuss leben.
 
Problem ist weniger die zusätzliche Hitzeentwicklung als dass der Wärmestrom durch die einzelnen Stacks muss. Idealerweise sollten die Stacks dann auch so groß sein wie der unterste um die Querschnittsfläche zur Wärmeübertragung nicht zu verringern. Ich bin gespannt, wie die nackten Dies aussehen werden und ob köpfen dann noch eine Option ist ;)
 
Bisher sieht es nach 2 verschiedenen ZENs aus:

8M/16C Zen mit GPU für Desktop
16M/32C Zen Opteron mit neuen Interconnect zw. den CPUs welches aber irgendwie nach HT3 aussieht mit neuem Namen und Takt ... "HT4" also doch irgendwie

Die Optis sollen auch "nur" Quad-DDR4-2xxx haben (REG ECC) - Desktop halt ohne REG ECC

Leider find ich's grade nicht:
Es soll auch HUMA+NUMA kommen
Opterons untereinander NUMA
Opteron zur per PCIe angeflanschten FirePro HUMA
für "fettes" HPC
Das NUMA+HUMA Problem hat Jim gerade am Hals, als eingefleischter ARM FAN sollte das "sure we can" seinem Name gerecht werden.
Ab in den Keller! ;)

1TByte DDR4-3200 (Multi-Bit ECC) sind wohl "not enough" für die hälfte der Speicherriegel?
Die Speicherdichte, die von "Depp Space Nine" vorausgerechnet wurde, scheint wohl "not enough" zu sein.

Pi-hunter anywhere? *party*
 
Soweit ich das bisher verstanden habe kommt gar kein Stacking zum Einsatz. Entweder Interposer oder Stacking (bis auf die HBM Speicherstacks) - 2.5 D wird über den Interposer gemacht und 3D Stacking geht auf den Die drauf, dann aber ohne Interposer. Ist so auch noch mal detailierter in dem Link zu Charlie beschrieben.
There are two types of stacking that TSVs enable, 2.5D aka interposers and 3D aka stacking. While both can be done without TSVs, there are a lot of very compelling benefits to using the technology to stack chips with. On the down side there are a lot of problems too, but since GloFo is offering the tech now those look to be mostly solved.

Und tatsächlich sind ja schon Desktop Produkte damit im Umlauf: Haswell mit GT3 Crystalwell:
When bonding a chunk of silicon to an organic/fiberglass package (that green thingy under that shiny gray thingy for the non-technical), you can have some issues with thermal expansion. If you are careful it just means your ball/bump pitch needs to be far larger than it otherwise needs to be. If you are not careful there are three things that can happen, one, two, and three. With stacking you bond silicon to silicon and avoid most of the thermal expansion issues that to this day Nvidia management still doesn’t officially understand.

This means you can use much smaller bumps at tighter pitches to put in a very large multiple of the connections in the same space as you could the old way. That changes everything from the design of the SoC to the end device itself. Coupled with the power drop, you can do some pretty impressive things like the 10W Haswell demo at IDF. That was due to Haswell GT3 and Crystalwell, impossible without 2.5D stacking and interposers.
 
2 L3 Caches? Wie kommst Du auf zwei? In so nem 2P Zen-MCM-Setups gäbs 64 Kerne, das macht bei den 4er-Zen-Clustern ebenfalls wieder 16 L3s.
Kommt darauf an, ob die L3 Blöcke aneinander gekoppelt sind. Ich denke schon. War aber trotzdem falsch von mir. Bei einem 2P MCM Design wären es dann natürlich 4 L3 Caches, nicht 2.

Wobei - gabs 8P Systeme im G34 Sockel überhaupt?
Yup, gab es.
 
Bisher sieht es nach 2 verschiedenen ZENs aus:

8M/16C Zen mit GPU für Desktop
16M/32C Zen Opteron mit neuen Interconnect zw. den CPUs welches aber irgendwie nach HT3 aussieht mit neuem Namen und Takt ... "HT4" also doch irgendwie
Na wenns sowieso nen neuen Interconnect gibt, dann ist die Wahrscheinlichkeit schon hoch, dass der größere "nur" ein MCM ist.
Bleibt nur noch zu hoffen, dass das mit dem Umschalten zw. HT4 und PCIe klappt und man dann im 1P-Systemen statt nutzloser HTr-Links Unmengen an PCIe-Lanes hat.
 
Die Umschaltung klappt schon seit Steamroller-CPU (ES)

Da gibts 1 "festen" 16 Lanes (coh)HT-Link und ggf 4x 16 Lanes PCIe Links womit die bereits woanders diskutierten 64 PCIe Lanes für Desktop funktionieren würden - oder halt 3 (coh)HT-Links und 2x PCIe x16 für Server

ps 64 PCIe Lanes bedeutet für Desktop dass 3 Slots mit x16 und ein Slot mit x8 nativ gehen würde (Chipsatz braucht ja auch noch x4 )
- wäre auch mehr als Intel bisher im Desktop kann !!!
- oder Chipsatz per HT-Link dann würden sogar 4x PCIe x16 gehen

Intel kann dies nur per Zusatzchips (idR von PLX)
 
Zuletzt bearbeitet:
Die Umschaltung klappt schon seit Steamroller-CPU (ES)
Ah gut zu wissen, es scheint bei AMD dann also doch ne Art langfristige Planung zu geben.

Mal im Ernst, die ZEN-Opterons sind ja wieder die Rolle Rückwärts, von wegen Konzentration auf custom Chips und Desktop ... jetzt gibts doch wieder Dickschiff-Dies. Einziger Unterschied ist, dass der Schwerpunkt auch dort auf Leistung/Watt liegt, aber früher gabs auch stromsparende Opterons.

Da gibts 1 "festen" 16 Lanes (coh)HT-Link und ggf 4x 16 Lanes PCIe Links womit die bereits woanders diskutierten 64 PCIe Lanes für Desktop funktionieren würden - oder halt 3 (coh)HT-Links und 2x PCIe x16 für Server
Echt, ist das Lane-Verhältnis so schlecht? Ein 16bit cHT Link hat zusammen zwar 32 Lanes, aber wäre immer noch ein Verhältnis von 1:2. Aber naja egal, will mich mal nicht wg. zuvieler PCIe-Lanes beschweren ^^
Für 1P-Server ist das im Hinblick auf Sata-Express auch nicht unwichtig.

ps 64 PCIe Lanes bedeutet für Desktop dass 3 Slots mit x16 und ein Slot mit x8 nativ gehen würde (Chipsatz braucht ja auch noch x4 )
Lol .. Chipsatz .. stimmt den wirds auch noch geben, was da wohl verbaut werden wird? Gibts da was Neues? Ein Shrink auf 40nm wär eigentlich auch mal nicht schlecht. Oder gabs bereits ne SB in 40nm?
Intel kann dies nur per Zusatzchips (idR von PLX)
Ja fragt sich eigentlich, wieso Intel nicht auch solche Umschalt-Pins vorsieht, QPI ist ja noch näher an PCIe als HT. Aber gut - nicht unser Problem - bleibt zu hoffen, dass das bei AMD klappt. Wenns schon seit Kaveri getestet wird, bin ich aber mal optimistisch.
 
Es wurde nicht bei Kaveri sondern Steamroller CPU (8M/16C) getestet - die Xrossbar-Pictures dazu hatten wir doch im "Fam15 SOG Leak"

Chipsatz:
SoC macht bei Highend relativ wenig Sinn aufgrund der für Highend typischen Ausstattungen
Chipsatz muss da ja nur eine neue "Rev" des SB7xx ähm SB8xx ähm SB9xx ähm A4x .... A88 sein

Rest wird eh über Extrachips (Netzwerk, Sound, SAS, WLAN, ....) realisiert

Einzig wenn ausreichen PCIe Lanes da wären (so 64 Stück) würden die Brückenchips (bei Intel oft von PLX) wegfallen (Intel hat ja "nur" 40 Lanes)
 
Zuletzt bearbeitet:
Dir ist aber schon klar das sich die Southbridges recht deutlich unterscheiden, oder?
 
Mal im Ernst, die ZEN-Opterons sind ja wieder die Rolle Rückwärts, von wegen Konzentration auf custom Chips und Desktop ... jetzt gibts doch wieder Dickschiff-Dies.
Wenn man den Chip modular aus z.B. 4x4-Kern-Clustern aufbaut ist es vielleicht gar kein Dickschiff-Die. Grafikkartenchips sind vom Design her ja auch keine "Dickschiffe". Gewisse Blöcke sind einfach nur sehr oft verbaut.
 
Kommt dann drauf an, wovon man spricht. Wenn das DIE seine (Hausnummer) gut 500mm² hat, ist das meiner Meinung nach schon ein "Dickschiff", auch wenn es intern vll. durch 4x4 Cluster etc. aufgebaut ist. So große DIEs wollen erstmal vernünftig gefertigt werden...
 
Mal im Ernst, die ZEN-Opterons sind ja wieder die Rolle Rückwärts, von wegen Konzentration auf custom Chips und Desktop ... jetzt gibts doch wieder Dickschiff-Dies. Einziger Unterschied ist, dass der Schwerpunkt auch dort auf Leistung/Watt liegt, aber früher gabs auch stromsparende Opterons.
Wer sagt denn, dass Custom Chips klein sein müssen? Die PS4 und XBO Chips sind schliesslich auch keine Winzlinge. Mal davon abgesehen, ein 16-Kern Zen Die ist mMn mit ~300 mm² zu realisieren. Als sonderlich dick würde ich das noch nicht bezeichnen. Orochi und Istanbul waren schliesslich auch nicht kleiner. Und Barcelona hatte auch fast 300 mm². Überraschen würde es mich erst, wenn AMD plötzlich >500 mm² Dies designed. Aber das dürfte bei einer neuen Fertigung wie 14nm FinFET nicht zu erwarten sein.
 
Schon brodelt bei Fudzilla die Gerüchteküche über eine "Folie" die wohl mehr schlecht als recht zusammengebastelt wurde...... :]
 
Ob 4, 8, 16 oder 32 Kerne auf einem DIE spielt erstmal keine Rolle, wichtig ist die Performance pro Kern, die Architektur muss beweisen was Effizienz & IPC bedeutet.
Hier geht es nicht um 20% mehr Singlethread oder 30% mehr Multithread Performance beim Gesamt Index, pro Kern müssen es über 50% mehr IPC sein, ausgehend von Steamroller > Zen.
Wenn eine 4 Thread Zen APU nicht 50% schneller wird, dann ist das für mich Bulldozer 2.0, wie soll man den sonst mit einer i5 APU mithalten...Dann wird es auch nichts im Mobilen Markt, hier sind die i3 & i5 meilenweit vor AMD in effizienz & IPC.
 
Zuletzt bearbeitet:
Was ist das denn für eine Erwartung? 50% mehr IPC? Wofür? FPU? x86-64? Oder einfach OpneCL Software die dann 400% mehr IPC hat dank der GPU?
Und es gibt nicht so etwas wie "meilenweit vorne" zu sein bei der IPC. Das könnte man auch problemlos morgen machen mit 3facher IPC des Haswell Kerns. Nur wenn der eben nicht über 500 MHz takten kann deswegen, dann nützt mir die takbereinigte IPC-Vergleicherei herzlich wenig.
 
Eine durchschnittlich 50% höhere IPC als Steamroller wäre vielleicht auf dem Niveau von Sandy Bridge. Das ist auch das, was ich von AMD erwarte, schließlich ist Sandy älter als Bulldozer. Dass AMD in dieser Hinsicht komplett zu Intel (Skylake) aufschließen kann, ist gar nicht realistisch, aber Sandy Bridge-IPC und -Taktraten sollten schon drin sein. Mit 8 Kernen/ 16 Threads und max 125W wäre das ein sehr netter Prozessor.
 
Ja, die IPC muß wirklich massiv gesteigert werden, das sollte auch machbar sein. Sowas wie einen Phenom II hat AMD ja auch schon gebaut, BD war IPC-mäßig ja ein heftiger Rückschritt. Und der Phenom II war auch schon IPC-mäßig schlechter ggü. Intel (C2Q), Intel hat die IPC seitdem aber noch deutlich gesteigert. Also sowas wie ein 2500K sollte schon machbar sein, ohne Ufo-Technologie ;)

Schon brodelt bei Fudzilla die Gerüchteküche über eine "Folie" die wohl mehr schlecht als recht zusammengebastelt wurde...... :]
weißt Du was? Ich spekulier mir lieber nen Ast ab über ne Fake-Folie als gar nichts zu tun zu haben ;)
 
Um an die Single Thread-Geschwindigkeit eines Sandy Bridge Prozessors zu kommen, müsste AMD wohl den µ-Op-Cache sowie die Erkennung von Schleifen einbauen, um kurze Schleifen aus dem µ-Op-Cache allein unter weitgehender Abschaltung der Dekodiereinheiten von x86 auf µ-Code abwickeln zu können. Diese Feature gibt Sandy Bridge laut c't die IPC und erlaubt aufgrund der Energieeinsparungen den recht hohen Takt. Diese Technologie wird vermutlich patentgeschützt sein und für AMD damit nicht zugänglich.
 
Zurück
Oben Unten