AMD RDNA 3 - Chiplet NAVI - NAVI 3X

Der logik Part ist für gewöhnlich anfälliger gegenüber defekten als die (wegen der Treiberstufen) recht großen Speichercontroller oder gar der extrem redundante Cache Speicher. Warum sollte man also ausgerechnet letztere in viele kleine Chips aufspalten um sie mit einem inzwischen eingefahrenen Fertigungsprozess zu fahren und auch noch einen entsprechenden Overhead an Fläche für die zusätzliche Interconnectivität aufbauen anstatt es in möglichst wenigen Chips zu realisieren und dabei auch noch zusätzliche Latenzen mit einbringen? Wie gesagt, ich halte es zudem für extrem unsinnig es in 64 Bit Blöcke zu zersplittern wenn es keine Produkte gibt die nur einen einzelnen benötigen. Mit 2 bzw. 3 128 Bit Modulen ließen sich hingegen beide Produkte realisieren und selbst ein 320 Bit Interface mit der üblichen Resteverwertung durch Deaktivierung einzelner ev. defekter 32 Bit Controller realisieren. Das würde aber im Grunde genommen auch nur sinnvoll sein wenn der Fertigungsprozess entsprechend fehleranfällig wäre da sonst der zusätzliche Flächenbedarf für die externe Kommunikation kontraproduktiv wäre aber das spräche wiederum gegen einen 203mm² großen 6nm Navi33.

Wie man es auch dreht und wendet, so wie oben beschrieben halte ich es für eine recht offensichtliche Ente.
 
Dass die Cache/Controller-Dice so klein sind, hat sicher wenig mit Ausbeute zu tun. Es könnte folgende Gründe haben:
- Skalierbarkeit: nicht nur, dass man hier in Vielfachen von 64-bit skalieren kann, man kann die kleineren Dice freier auf dem Substrat "positionieren", wodurch der Chipletaufbau einfacher und flexibler werden dürfte
- mit der Größe des Caches verändern sich auch die Latenzen: man hat zwar bessere Trefferraten, aber es kostet etwas an Latenz; womöglich hat sich die aktuelle Größe als optimal ergeben
- zuletzt sollte es mit diesem Konzept einfach sein, ein späteres, größeres Cache/Controller-Die zu entwickeln und gegen das Aktuelle zu tauschen: wenn die aktuellen kleinen Dice alle mit etwas Spielraum "herum" verbaut sind, kann später ein größeres Die mit gleichen Pin-Output im sonst unveränderten Chiplet-System genutzt werden, weil Raum ist, in den es hineinwachsen kann.
 
Ich sehe da dennoch keinen Grund sie auf unterschiedliche DIE aufzuteilen denn der Speichercontroller teilt sich meiner Erinnerung nach schon seit einer Ewigkeit auf einzelne 32 Bit Controller auf und eine Aufsplitterung des Infinity Cache und eine so starke räumliche Trennung dürfte alles andere als positive Folgen haben, es sein denn dass die Daten auf kurzem Wege auf dem DIE bearbeitet werden könnten. Genau das wäre hier aber aufgrund der räumlichen Trennung zu den Shadern nicht der Fall.
Zudem sollte man einen anderen Punkt nicht vergessen, der Infinitycache bietet der GPU erheblich mehr Bandbreite als das VRAM Speicherinterface und das darf man so alles durch die externe Schnittstelle zur GPU prügeln, inkl. der Kommunikation zwischen den Speicher und Cache Bereichen.

Unterm Strich ist es aber auch egal weil ich keinen Grund finden kann eine solche Aufteilung von Speichercontroller und Cache nicht auf einem DIE unterzubringen und so die gesammten Latenzprobleme und den zusätzlichen Flächenbedarf aufgrund von Randbereichen des Chips, den Sägeflächen und dem Flächenbedarf der Anschlussflächen zu umgehen.
Doppelposting wurde automatisch zusammengeführt:

Noch als kleinen Hinweis, eine sinnvolle Aufteilung wäre für mich die Auslagerung vom PCIe- und vom Speicherinterface auf einen separaten Chip mit den besagten 6nm und die restliche GPU sammt Infinitycache werden dann im teuren 5nm Prozess gefertigt denn der Cache reduziert den Latenz- und Bandbreitenbedarf zum VRAM erheblich und dürfte sich ähnlich gut schrumpfen lassen wie die Logik.
 
Zuletzt bearbeitet:
Wenn man RDNA2 Die Shots zum Vergleich nimmt könnte bei dem erwarteten MCD 1/3 bis 1/2 der Fläche für den GDDR PHY und den Cache Controller sowie den IF GMI/PHY genutzt werden müssen.
Das würde beim Stacking schon auf sehr kleine Cache Stack Chiplets hindeuten. Auch wäre denkbar gewesen jeweils 2x 64bit Speicherinterface und 2x 16MB Cache zusammen zu fassen. Ist das kleinere MCD nur der Herstellung oder künftigen MCM Varianten geschuldet?
Es sind daher noch viele Fragen offen.

Die Technik, die Apple beim M2 ultra für DualChiplets anwendet, ist auch sehr elegant und wäre für GPUs sicherlich geeignet.
 
4Ghz - waere eine Ansage. Klingt aber irgendwie schon sehr uebertrieben.
Wird nur etwas fuer das Labor sein koennen - oder!?

Mal schauen...
TNT
 
Dass RDNA3 ähnlich wie Zen4 auch deutlich höher als sein 7nm-Vorgänger takten sollte, erwarte ich eigentlich schon, also Takte von bis rund 3,5Ghz für die OC-Grakas von RDNA3. 4Ghz dürften dann wohl eher die extremen OC-Take sein.
 
Warum nur der 3.Nov!? *noahnung*
*kopfkratz
TNT
 
Zuletzt bearbeitet:
Jetzt kennen wir ja Nvidias Vorstellungen bezüglich der RTX-40-Preise.

Die 7900/7800XT dürften aber auch nicht billig werden, da die aufwändigen Multi-Die-Konstrukte auch nicht billig werden dürften, zumal beide auch viel Silizium-Fläche verbrauchen, wenn auch etwas weniger in 5nm. Vor allem dürfte der Navi32 nicht viel billiger werden als der Navi31. Richtig günstig dürfte dagegen aber der Navi33 werden, der ein "einfaches" monolithisches Die von nur rund 200mm² im günstigen 6nm-Prozess hat. Damit dürften günstige 400€-Grakas möglich werden, die in der Leistung womöglich gar nicht mehr weit weg von der "kleinen" 4080 von Nvidia zu liegen kommen und dann Nvidias kleinere RTX40 bzw die alten RTX30 in große Bedrängnis bringen könnten.

Die Navi32- und Navi31-Grakas von AMD erwarte ich jedoch auch in recht hohen Preisregionen, weil deren GPUs ebenfalls nicht billig sind. Eine Navi31 wird es kaum unter 1000€ geben, die billigste vielleicht zu 999$/€. Die Navi32 dürften nicht viel weit drunter landen, weniger als 599$ denke ich kaum.

AMD wagt hier ein gewisses Loch im Produktspektrum, das durchaus Sinn ergibt: bis 499$/€ vermutlich mit Navi33, wo man gut Geld verdient und alle Kunden bedient, die einfach nicht mehr ausgeben wollen. Wer mehr will, ist auch bereit einen größeren Schritt zu machen, wenn er dafür auch viel mehr Leistung bekommt und dann auch 1000$ bereit ist auszugeben.

Wichtig ist aber: die Kunden, die heute 1000$ und mehr ausgegeben haben, wollen bei der nächsten Generation nicht gleich wieder neu kaufen. Und wenn sie es tun, dann geben viele von ihnen ihre alte Graka in den Gebraucht-Markt, der dann eben genau die von AMD aktuell ausgelassene Lücke bedient. Die Leute, die nur bis etwa 400$ für eine Navi33 ausgegeben haben, liegen bei der nächsten Graka-Generation so weit unten, sodass sie beim Aufstieg kein altes Produkt in den Gebraucht-Markt geben können, das vom zukünftigen Markt etwas weg nimmt, weil kaum mehr verkäuflich.
 
400€ ist für mich nicht die Preisklasse, die ich als günstig einordnen würde.

Die Navi3x Mockups der MCMs erinnern mich stark an Vega, nur dass da zum Chip noch zusätzlich der RAM auf der Karte verbaut werden muss. Abgesehen vom Preis für die Chiplets und den separaten VRAM sehe ich jetzt keine Herstellungskosten, die deutlich über den Vegas liegen sollten. Diese Vegas gingen am Ende tatsächlich in einem günstigen Preissegment über die Ladentheke, v.a. auch "relativ" die Radeon VII.
Damit meine ich, dass ein Navi33 im Bereich 400€ durchaus hohe Margen erzielen könnte, ein Navi32 sollte auch um 600€ zu ähnlich schlechten Margen wie Radeon VII möglich sein.

AMD kann nach meiner Einschätzung deshalb bei den kommenden GPUs mit der Marge um Marktanteile pokern. Wenn mann es schafft ein gutes Produkt zu platzieren, das nVidia preislich unter Druck setzt, bleibt der Konkurrenz kaum Spielraum in der Preisgestaltung.

Es wird sehr viel auf die Software ankommen, ob es dem überwiegenden Teil der Käuferschaft Grund genug ist bei nVidia zu bleiben. Mit Gameworks und PhysiX hatte das in der Vergangenheit zumindest einmal bereits funktioniert.

Ein Navi34 mit 10 WGP fürs Einstiegssegment hat sich auch noch nicht konkretisiert. Möglich dass die APUs dort von unten den Markt nehmen unf für Intel-Laptops hat man da nicht mehr geplant. Wenn kein Navi34 kommt sollten mit Navi33 Binning auch günstige GPUs um 200€-300€ möglich werden, das ehemalige Polaris-Segment.
 
Die 7900/7800XT dürften aber auch nicht billig werden, da die aufwändigen Multi-Die-Konstrukte auch nicht billig werden dürften, zumal beide auch viel Silizium-Fläche verbrauchen, wenn auch etwas weniger in 5nm.
Ich bin nicht davon überzeugt, dass ein Multi-Die-Design zwangsweise teurer in der Herstellung ist als ein monolithisches. Natürlich hat man mehr Flächenverbrauch und es kommen zusätzliche Bearbeitungsschritte hinzu. Allerdings kann man unkritische Teile in älteren und damit günstigeren und zuverlässigeren Nodes herstellen. Hinzu kommt die bessere Ausbeute durch die kleineren Chiplets. Die größten Mehrkosten dürften eher im Design liegen, aber das sind Einmal-Kosten.

ein "einfaches" monolithisches Die von nur rund 200mm² im günstigen 6nm-Prozess hat. Damit dürften günstige 400€-Grakas möglich werden
Es kommt natürlich auf die Leistung an, aber bei 400€ für eine 200mm² Grafikkarte finde ich schon recht happig.

Die Navi32- und Navi31-Grakas von AMD erwarte ich jedoch auch in recht hohen Preisregionen, weil deren GPUs ebenfalls nicht billig sind. Eine Navi31 wird es kaum unter 1000€ geben, die billigste vielleicht zu 999$/€. Die Navi32 dürften nicht viel weit drunter landen, weniger als 599$ denke ich kaum.
Also unter nicht weit drunter verstehen ich 50-100€ mehr/weniger, nicht 400€ bei einem 600/1000€ Produkt.


Die Navi3x Mockups der MCMs erinnern mich stark an Vega, nur dass da zum Chip noch zusätzlich der RAM auf der Karte verbaut werden muss. Abgesehen vom Preis für die Chiplets und den separaten VRAM sehe ich jetzt keine Herstellungskosten, die deutlich über den Vegas liegen sollten. Diese Vegas gingen am Ende tatsächlich in einem günstigen Preissegment über die Ladentheke, v.a. auch "relativ" die Radeon VII.
Bei solchen Vergleichen muss man berücksichtigen, dass Vega ein technisch unterlegenes und damit wenig interessantes Produkt war. Entsprechend musste AMD seine Marge vermutlich eher niedrig ansetzen und überhaupt einen gewissen Cashflow zu generieren. Sollten die neuen Karten, wie wir wohl alle hoffen, kompetitiv sein, so dürften wir deutlich höhere Preis sehen als bei Vega, selbst wenn die Kosten gleich geblieben wären.
 
Zuletzt bearbeitet:
AdoredTV meldet sich mal wieder - mit einem RDNA3 Video.

Er vermutet mit RDNA3 den "Zen Moment" also wie der erste Zen durch IF lineare Skalierung bei Chiplet verteilten Komponenten ermöglichte.

Die These basiert darauf, dass AMD in den MCDs mit mehr InfinityCache noch nicht ans Limit gehen muss und noch viel mehr Shader auf einem künftigen GCD unterbringen kann während Nvidia das mit den grössten Monolithen nicht könnte.
Deshalb vermutet er neben dem Vorteil bei Energieeffizienz und Takt durch einen kleineren Die, dass AMD allein wegen den Shadereinheiten, die einfach mehr MCDs bzw. mehr Stacks auf den MCDs für die Bandbreite hinzubekommen, man mittelfristig Nvidia überbieten kann. Am Ende so wie man Intel bei Zen auch mit mehr Cores überboten hat.
 
Die These ist ja der Entwicklungsansatz seit Jahren und hat schon mit den ersten Interposer-Designs das Problem der Speicherinterfaces bei der Skalierung auf kleinere Nodes angegangen. Über Fiji mit HBM und der Entwicklung eines tauglichen Interconnects. MIt den MCDs kann man plötzlich Bandbreite nach belieben skalieren und einen günstigen Prozess nutzen mit kleinen Chiplets. Ich glaube der nächste Schritt wird nicht sein mehr Shadereinheiten auf einen größeren GCD zu bringen, sondern kleinere GCDs eben zu kombinieren wie bei CPUs. Der aktuelle Zwischenschritt ist Indiz, wie viel Spielraum da AMD eigentlich noch hatte einen größeren GCD zu nutzen. Es zeigt eine Entwicklung, die in jeder Phase konkurrenzfähig bleibt und Optionen zur Verfügung stellt, sollte es eben nicht mit der Performance bei 2 GCDs hinhauen.

N31 ist ein über Jahre erarbeitetes Kosten-Senkungs-Konstrukt für eine immer teurer werdende Fertigung und ich denke Nvidia sieht hier schon seine Felle davon schwimmen in 1-2 Generationen.

Eine sehr Interessante Aufschlüsselung der Kosten-Relation normiert auf die gecancelte RX 4080 mit 12 GB hier: https://www.semianalysis.com/p/ada-lovelace-gpus-shows-how-desperate
https%3A%2F%2Fbucketeer-e05bbc84-baa3-437e-9518-adb32be77984.s3.amazonaws.com%2Fpublic%2Fimages%2Fbf202911-e5ce-4590-9261-f7dd1b136e72_1113x537.png


While we did create dollar estimates, we want to avoid putting these dollar estimates in public as people will extrapolate those numbers to infinity and beyond. Die costs would have an additional high gross margin applied by Nvidia and AMD. Those marked-up dies will be assembled with memory and various board-level costs with an additional but smaller assembly and sales margin by firms like Asus. These figures do not account for those additional margins or the BOM for board-level costs such as VRMs and coolers, as there will be many variations of these GPUs from board partners. In general, those board-level costs will linearly increase with power levels, in which AMD is rumored to have an advantage in.

We calculated the die costs to account for parametric yields with a high percentage of die harvesting. We also used N6 and N5 wafer costs, which we obtained from a large TSMC customer. We assumed that AMD and Nvidia pay similar prices due to their volume (Nvidia has had to prepay for more than $1B for these wafers while AMD has not made significant prepayments to TSMC as a favored customer). Packaging and memory BOM was also calculated by speaking to sources within the industry.
 
Auffällig finde ich bei der Tabelle, dass das Packaging selber überhaupt nicht so großen Anteil an den Gesamtkosten hat, wie das immer wieder in Foren eingebracht wird. Ebenfalls ist es auffällig, dass N31 fast doppelte Packagingkosten hat, wie N32 - 4 anstatt 6 MCDs weniger sollten da nicht so viel ausmachen.
 
Du könntest richtig liegen falls sich Gerüchte um ein Dual N32 bewahrheiten. Kann aber auch nur ein Labor Projekt gewesen sein für spätere Generationen.
 
Ich glaube der nächste Schritt wird nicht sein mehr Shadereinheiten auf einen größeren GCD zu bringen, sondern kleinere GCDs eben zu kombinieren wie bei CPUs.
Ging vor einiger Zeit nicht mal ne News durch die Presse wonach AMD ein Patent für einen abgestuften Sheduler eingereicht hatte bei dem die erste Stufe die Arbeit nur grob für die folgenden Unterstufe aufteilt?
Das wäre wohl eine Voraussetzung dafür die GPU selbst auf mehrere Die aufzuteilen.
 
Ja ich hatte das Patent im 3dCenter gepostet, ich weiss gar nicht ob auch es hier irgendwo ebenfalls verlinkt habe. Aber guter Hinweis ich pack es in den Thread hier: https://forum.planet3dnow.de/index....en-fiji-hbm-und-logic-ics.422600/post-5418450
Diskutiert habe ich das auch schon mit Gispel im 3DCenter: https://www.forum-3dcenter.org/vbulletin/showthread.php?p=13155167#post13155167

Spannend ist, dass dies auch zusammenhängen könnte: https://www.angstronomics.com/p/amds-rdna-3-graphics?s=31
One of the features in the RDNA 3 graphics pipeline is OREO: Opaque Random Export Order, which is just one of the many area saving techniques. With gfx10, the pixel shaders run out-of-order, where the outputs go into a Re-Order Buffer before moving to the rest of the pipeline in-order. With OREO, the next step (blend) can now receive and execute operations in any order and export to the next stage in-order. Thus, the ROB can be replaced with a much smaller skid buffer, saving area.
Diese "Skid Buffer" Technik ist ein alter Hut für FPGAs.
A skid buffer is the smallest Pipeline FIFO Buffer, with only two entries. It is useful when you need to pipeline the path between a sender and a receiver for concurrency and/or timing, but not to smooth-out data rate mismatches. It also only requires two data registers, which at this scale is smaller than LUTRAMs or Block RAMs (depending on implementation), and has more freedom of placement and routing.
Wird das wie im Patent beschrieben mit einem Co-Prozessor kombiniert und auf Task-Level eingesetzt, um das Dispatching mit 2 GCDs und CPU zu übernehmen, könnte es die entscheidende Technologie sein um eine beliebige Anzahl von GCDs, auch für Rendering, nach aussen wie eine GPU ansprechbar zu machen.

Entwickelt wurde es im Rahmen des PathForward Projekts für HPC - dort sind andere Skalierungen im Blick gewesen für GPUs über ein Netzwerk: https://www.amd.com/en/press-releases/amd-selected-by-2017jun15
Doch direkt auf einem Die um ein NoC bei MCMs zu nutzen scheint ebenso eine Option zu sein.
 
Auffällig finde ich bei der Tabelle, dass das Packaging selber überhaupt nicht so großen Anteil an den Gesamtkosten hat, wie das immer wieder in Foren eingebracht wird. Ebenfalls ist es auffällig, dass N31 fast doppelte Packagingkosten hat, wie N32 - 4 anstatt 6 MCDs weniger sollten da nicht so viel ausmachen.
Es ist eben auch die Frage wie das realisiert wird. Per Interposer oder mit sowas wie Intels EMIB.
Bei letzteren dürfte die Komplexität und damit die Produktionskosten mit steigender Anzahl an Chips auf dem Träger deutlich zunehmen. Beim Interposer eher mit der Anzahl der Layer.
 
Es ein organisches Substrat das genutzt wird, wie die ersten Packagefotos ja zeigen - das Verfahren ist hier beschrieben im Thread und kommt auch bei CPUs zum Einsatz - 2.1D genannt : https://forum.planet3dnow.de/index....en-fiji-hbm-und-logic-ics.422600/post-5157581
The differentiator between 2.1D and 2.5D is the presence of TSVs and the interposer material. Therefore, 2.1D is merely an advanced multichip module on an organic substrate – often a highly integrated organic interposer. This technology is substrate supplier driven, and is limited to 2-6µm line and space requirements.
Ich bin gespannt ob die angespannte Lage bei der Substrat-Supply-Chain dann doch dafür sorgt, dass man wieder auf eine teurere Variante mit Silizium-Interposer setzt. Möglicherweise ist das sowieso schon geplant wenn aktive Interposer irgendwann bei mehr Chiplets und heterogenerer Zusammenstellung ausreichend Performancevorteile bringen um die Mehrkosten zu rechtfertigen.
Ich glaube das Substrat war dieses Jahr mehr Nadelöhr bei der Fertigung als die Wafer.
 
Zuletzt bearbeitet:
Silizium bitte schön ;)
 
Danke :D - warum mir das nur bei anderen auffällt und beim nochmal drüber lesen meiner eigenen Texte nicht, wird mir immer wieder rätselhaft bleiben ;)
Edit: Nein - ich bin kein Silikon-Fan, bevor jemand fragt :D :D
 
Du könntest richtig liegen falls sich Gerüchte um ein Dual N32 bewahrheiten. Kann aber auch nur ein Labor Projekt gewesen sein für spätere Generationen.

Imo wird ja RDNA3 von einigen AMDlern als Zen-Moment gepriesen. Ich glaube aber das ist erstmal nur Grundsteinlegung. Mit RDNA4 erwartet uns dann schon eher sehr Spannendes.

Übrigens wer es noch nicht mitbekommen hat, hier verfolgen wir um 21:00 Uhr dann den Livestream:

 
Zurück
Oben Unten