AMD Interposer Strategie - Zen, Fiji, HBM und Logic ICs

HMC auf Knights Landing soll von Intel zukünftig durch HBM ersetzt werden auch zukünftige auf EMIB basierende Designs sollen HBM nutzen können:

Bei Knights Landing wird gar nichts ersetzt er sagt nur das in zukünftigen Produkten HBM benutzt werden wird da es mehr Bandbreite liefert und besser verfügbar ist.
 
"HMC AUF Knights Landig soll ZUKÜNFTIG"...also bei den Folgeprodukten...Lesen bitte. Da steht auf Knights Landing wird HMC genutzt der zukünftig durch HBM wohl ersetzt wird.
"soll" drückt zur Genüge aus, dass dies nicht gesichert ist. Das alles in einem deutschen komprimierten Satz scheint nicht jedem verständlich zu sein.
 
Es ist aber auch ziemlich blauäugig anzunehmen das ein zu anderen Speicher Standards komplett inkompatibler Speicher Standard nur für eine einzige Produktgeneration genommen und von vorn herein geplant war ab der nächsten Generation auf einen komplett anderen Speicher zu setzen.
 
"HMC AUF Knights Landig soll ZUKÜNFTIG"...also bei den Folgeprodukten...Lesen bitte. Da steht auf Knights Landing wird HMC genutzt der zukünftig durch HBM wohl ersetzt wird.
"soll" drückt zur Genüge aus, dass dies nicht gesichert ist. Das alles in einem deutschen komprimierten Satz scheint nicht jedem verständlich zu sein.
Knights Landing ist der Codename für einen spezifischen Chip und keine Bezeichnung für eine allgemeine Produktlinie.
Korrekt formuliert würde man schreiben, dass zukünftige Xeon Phi Beschleuniger wahrscheinlich HMC durch HBM ersetzen werden.
 
Knights Landing ist der Codename für einen spezifischen Chip und keine Bezeichnung für eine allgemeine Produktlinie.
Korrekt formuliert würde man schreiben, dass zukünftige Xeon Phi Beschleuniger wahrscheinlich HMC durch HBM ersetzen werden.

So siehts aus du musst dich richtig ausdrücken und nicht mir vorwerfen nicht richtig zu lesen...
 
Danke dann werde ich das zukünftig verbessern. Ich hoffe dennoch es wurde deutlich was ich ausdrücken wollte.
 
Hier sind Fotos zu finden von einem Fiji-Chip der zerlegt wurde samt Interposer Die Dieshots sind sehenswert:
http://www.forum-3dcenter.org/vbulletin/showpost.php?p=11154123&postcount=13917
Beim auflegen von GPUs/CPUs mit Chip nach unten auf eine ca 400°C heiße Herdplatte, sprengen sich die Chips nach ca. 20 sec. vom Trägermaterial normalerweise ab. Hier beim Fiji mitsamt Interposer war dies ein wenig anders. Der Interposer zerbrach einfach und haftete weiterhin am Trägermaterial. Der Fiji Chip haftete ebenfalls noch am Interposer. Nach fast der doppelten Zeit als üblich lößten sich auf einmal die HBM-Stacks und die Fiji-GPU. Der Interposer haftete noch halb am Trägermaterial.

28925674133_d58a9ecc99_c.jpg
 
Schaffe...
Wer dem glaubt, glaubt auch Charlie und Fuad...
Wobei die deutlich bessere Quellen haben und vertrauenswürdiger sind...

Sorry, aber das ist echt nur wert ignoriert zu werden.
 
Habe bisher in mehreren Firmen als Softwareentwickler gearbeitet. Über die Ideen der "Oberen" hat man überall den Kopf geschüttelt und geflucht, dass die Software halbgar raus muss. Funktionierte halt halbwegs, aus Entwicklersicht aber unbefriedigend.
Nach außen priesen die Verkäufer und die "Oberen" immer, welch tolles neues Produkt sie nun haben etc.

Also überall das gleiche. Würde daher nichts auf das Geschwätz der Angestellten geben, so lange nicht ein konkreter Soll-Ist Vergleich auf dem Tisch liegt.
 
Wenn dem so wäre, warum versicherte selbst Su erneut, dass ZEN voll im Plan liege und die eigenen Erwartungen sogar noch übertroffen wurden?
Wahrscheinlich weil sie es besser weis als ein Student der erzählt an seiner Uni werde dies oder jenes spekuliert. Das ist ja das lächerlichste an Quelle das es je gab.
 
Also beim rx480 hatte ich schon das Gefühl das Designziel und Prozess nicht 100% passten sonst wäre die PCie Geschichte wohl nicht passiert und Werbung war das sicherlich nicht.
Nur ob das auf Zen bzw CPU´s übertragbar ist halte ich für fraglich und vermutlich wird auch GF den Prozess eher besser in den Griff bekommen. Aber das vieles nicht Perfekt läuft glaub ich sofort sonst würde Intel nicht auch einige Zwischenschritte im selben Node machen.
 
Die Geschichte war ja alles in allem auch nicht sooo bewegend. Man hat den möglichen Shitstorm wohl unterschätzt.
 
Enabling Interposer-based Disintegration of Multi-Core Processors
Zum PDF: https://tspace.library.utoronto.ca/bitstream/1807/70378/3/Kannan_Ajaykumar_201511_MAS_thesis.pdf

Highlights:
Kostenanalyse für monolithischen 64-core vs. 16x4-core
attachment.php


Es zeigt, dass durch die kleineren Dies mehr fertige SoCs pro Wafer entstehen bei selber Defektrate.
Ausserdem können die kleinen Dies durch Speedbinning für verschiedene Produkte genutzt werden. Diese Grafik zeigt die Möglichkeiten für 400 MHz mehr Takt durch das binning:
attachment.php


Anstatt bei 2,0-2,1 GHz die meisten funktionierenden SoCs zu haben, erhält man durch die Sortierung der jeweils 16 schnellsten 4-core Dies eine Spannbreite wo es sogar bei 2,8 GHz noch 10 SoCs/Wafer ergibt. Die meisten SoCs im Bereich 2,3-2,6 GHz.
 

Anhänge

  • SoC_Yield_Comparsion.JPG
    SoC_Yield_Comparsion.JPG
    62,6 KB · Aufrufe: 3.414
  • SoC_Speed_Comparsion.JPG
    SoC_Speed_Comparsion.JPG
    59,4 KB · Aufrufe: 2.007
Zuletzt bearbeitet:
Na, da hat sich aber jemand Mühe gegeben das zu bestätigen, was ich schon seit zwei oder drei Jahren sage ... ;)
 
Was mich wundert, wird denn diese Sortierung, das Binning nicht schon immer gemacht?
Wie hätte man denn sonst die besten und die schlechtesten anbieten können?
 
Was mich wundert, wird denn diese Sortierung, das Binning nicht schon immer gemacht?
Wie hätte man denn sonst die besten und die schlechtesten anbieten können?

Monolithische Chips kannst Du nur als ganzes binnen, mit entsprechend schlechtem Ergebnis. Setzt man aber per Interposer jetzt z.B. 8 Quadcore Dies zu einem 32 Core Chip zusammen, dann kann jeder der 8 Quadcore Dies besser durch Binning selektiert werden und dadurch der Gesamt-Chip entsprechend höher takten, da man sich nicht nach dem schlechtesten von allen 32 Cores richten muss, sondern nur nach dem schlechtesten Quadcore Die.
Zudem man dann gezielt selektierte Quadcore Dies miteinander kombinieren kann (welche z.B. alle 2.6Ghz geschafft haben).
 
Achso, auf das Die bezogen. So macht das Sinn, danke.
 
Naja je mehr Chips auf dem Interposer, desto mehr Kommunikation über diesen. Kommunikation auf dem Chips wird nahezu immer schneller sein. Das ist in dem Auszug aus dem PDF oben gar nicht bedacht. Es läuft also eher auf einen Einzelchip moderater Größe hinaus, bei dem die Anzahl SoCs (siehe Post 215) aus einem Wafer relativ hoch ist, in dem genannten Beispiel z. B. 8 Kerne. Die kann man dann ja auch besser einzeln verkaufen :-)

Einzige Variante wo noch interessant wäre ist, wenn die Einzelchips intern zwischen den Kernen/Clustern gar nicht kommunizieren sondern nur über den Interposer. Also wenn man z. B. bei Zen 4-Kern-Chips baut und dadurch keine Kommunikation zwischen Clustern innerhalb des Chips braucht. Das sehe ich aber nicht, weil einen 8-Kerner hat man ja schon. Ich tippe also für Server/Workstation erst mal auf 8-Kerner und maximal 4 Chips in einer CPU.
 
Die Bandbreite und Latenzen auf Interposern sind mehr als ausreichend für CPUs. Das Thema hatten wir schon mehrfach. Selbst im schlechtesten Fall immer noch deutlich besser als mit mehr Sockeln zu arbeiten ...
 
Naja je mehr Chips auf dem Interposer, desto mehr Kommunikation über diesen. Kommunikation auf dem Chips wird nahezu immer schneller sein. Das ist in dem Auszug aus dem PDF oben gar nicht bedacht.
In dem PDF, welches verlinkt ist, wird das ausführlich analysiert und auch die unterschiedlichen Meshes die auf einem monolithischen Chip, auf einem Interposer oder auch im gemischten Modus das NoC bilden können. Es wurden sogar unterschiedliche Lastszenarien (Speicher, GPU, Inter-Kern Kommunikation) zu den verschiedenen Meshes getestet mit unterschiedlichen Ergebnissen. Es geht hier allerdings niemals um fehlende Bandbreite (denn die ist durch den Interposer immer zu genüge da), sondern zumeist um Latenzen die entstehen bei Kollisionen in der Kommunikation und die Anzahl der Hops zwischen den Knoten im NoC. In jedem Fall wird ein "ButterDonut" Mesh, welches mit einem aktiven Interposer ebenfalls verbunden ist als optimal empfohlen.

attachment.php


Da aktive Interposer ebenfalls Routing-Logik erhalten ist zum einen die Yieldrate deutlich schlechter und zum anderen auch die Herstellung teurer, was die Kosten nach oben treibt. Allerdings gibt es hier auch einen Zwischenweg, der in dem Paper ebenfalls aufgezeigt wird.

attachment.php


Wie man der Tabelle entnehmen kann würde ein 100% aktiver Interposer in dieser Größe, je nach Defektrate, Extrem schlechte Yields bieten.
Die Lösung ist den Interposer nur Teilaktiv zu machen. Für ein Interposerübergreifendes NoC wie in dem ersten Bild würden maximal 10% benötigt, eher weniger wenn man optimiert. Die Yields würden dennoch über 90% liegen.

Die Kostenanalyse im Vergleich zur geopferten Latenz zeigt welche Kompromisse man eingehen muss:

attachment.php


Die Kosten mit 4-Core Dies sinken um ca. 20%, während man ca. 22% Latenz als Penalty erhält. Das könnte die Kostenersparnis durchaus rechtfertigen.

--- Update ---

Das kommt mir bekannt vor. Damals hatte ich neben der Arbeit auch das Paper hier gefunden: http://www.eecg.toronto.edu/~enright/Kannan_MICRO48.pdf
Ja ist der selbe Inhalt wie ich eben gesehen habe :) Danke.
 

Anhänge

  • SoC_Interposer_active_passive.JPG
    SoC_Interposer_active_passive.JPG
    57,1 KB · Aufrufe: 980
  • SoC_Yield_Interposer.JPG
    SoC_Yield_Interposer.JPG
    60,2 KB · Aufrufe: 1.600
  • SoC_Cost_Latency.JPG
    SoC_Cost_Latency.JPG
    69,9 KB · Aufrufe: 2.642
Abgesehen davon kann man ja erstmal davon ausgehen, dass AMD keine wilden Modelle mit super vielen kleinen Chips auf den Markt bringen wird. Der Größte dürfte aller Wahrscheinlichkeit erstmal Naples mit vier Achtkern Summit Ridge Modulen sein, welche dann vermutlich als 2x2 angeordnet sind - der optimalen Wege halber.

Wobei es dann eigentlich interessant wäre zwei spiegelverkehrte Chip-Varianten zu haben, damit man immer einen sehr kurzen Weg hat.

Etwa so:

A4LiqGr.png
 
Da alle CPU-Kerne an das NoC-Mesh angebunden sein müssen, ist das als eine Ebene tiefer vorzustellen.
Dein Vorschlag ist auf Micro-Bump-Ebene sinnvoll wenn ein passiver Interposer zum Einsatz kommt. Allerdings benötigst du zusätzlich noch Verbindungen zum Speicher die ja wiederum außerhalb am Interposer angeordnet sind. ;)
Daher bekräftige ich nochmals den Rat von Dresdenboy einen Blick in dem PDF auf die verschiedenen NoC-Meshes zu werfen.
Das geht nämlich über die TSV-Anbindung bei Fiji<->HBM hinaus.
 
Ich bin zu 99% sicher, dass Snowy Owl und Naples einen passiven Interposer nutzen werden. Und kürzere Verbindungen sind immer sinnvoll - die Frage ist nur was ein "spiegeln" extra kosten würde. Wobei eigentlich die Frage nach dem genauen Interconnect Fabric an erster Stelle stehen müsste. Ist das zum Beispiel eine Art Bussystem, oder ein Point-to-Point-System? Und dann müsste man wissen ob das IC-Fabric tatsächlich an einer Stelle des Chips konzentriert ist, mit seinen Verbindungen, oder ob das auf jeden Kern aufgeteilt ist. Oder ist jeder Kern mit einem Switch auf dem Chip verbunden, während dann mehrere Switches über den Interposer verbunden sind? Abgesehen davon sollte jegliche zusätzliche Logik zwischen zwei Kernen die Latzenz erhöhen, und nicht verringern, da mit Logik Schaltvorgänge verbunden sind.
 
Zurück
Oben Unten