AMD RDNA 4 - 144CU, 48GB VRAM, 3nm + 4nm

Also ich hoffe das mit UDNA wirklich ein ZEN Moment kommen wird und der Offene Ansatz von AMD mag nett sein, nett ist aber nicht immer gut und das sehen wir jetzt ja.
Auch wenn FSR durchaus immer besser wird, wird AMD wohl nicht um einen geschlossenen Ansatz herum kommen bzw sie müssen extra Hardware verbauen!

Ich persönlich würde es feiern wenn die Untersuchung in den USA gegen NV darin mündet das sie CUDA offenlegen müssen oder zumindest die Möglichkeit der Ausführung auf AMD Hardware mit einem Translater erlauben müssen!
Ob es kommt, wer weiß ... niemandem kann an einem NV Monopol gelegen sein ... die Preise zeigen ja jetzt schon wohin die Reise geht wenn die Kokurrenz zu schwach ist ...
 
Nein macht kein Sinn.

Die Ausführungseinheiten werden relativ zur Speicherung und Cache Hierarchie immer « billiger « . Das erlaubt mehr Funktionen in HW für Gaming oder Compute mitzuschleppen als nötig. Zum Start von UDNA wird Gaming ohnehin nur noch ohne klassische Pipeline entwickelt werden.

Es ging um einheitliche Speicherarchitektur für einheitlichen optimierten Code. Man darf denen schon glauben wenn die Gründe nennen.
 
Ich denke dass CDNA die Aufgabe hatte, den GPU-Compute Bereich in das Chiplet-Design zu überführen, da es beim Gaming andere/zusätzliche Schwierigkeiten gibt. UDNA (6) könnte der Start den Multi-Chiplet-Generation in Gaming sein und RDNA 4 und 5 haben nur noch die Aufgabe die Chiplets skalierbar zu machen. Gut möglich dass es da sogar eine erste und teure SKU mit MCM-RDNA(4/5) gibt für Enthusiasten.
Ich habe den kleinen Hoffnungsschimmer noch nicht aufgegeben, dass N44 möglicherweise als Dual-Variante kommt. ;)
 
Ich denke dass CDNA die Aufgabe hatte, den GPU-Compute Bereich in das Chiplet-Design zu überführen, da es beim Gaming andere/zusätzliche Schwierigkeiten gibt. UDNA (6) könnte der Start den Multi-Chiplet-Generation in Gaming sein und RDNA 4 und 5 haben nur noch die Aufgabe die Chiplets skalierbar zu machen. Gut möglich dass es da sogar eine erste und teure SKU mit MCM-RDNA(4/5) gibt für Enthusiasten.
Ich habe den kleinen Hoffnungsschimmer noch nicht aufgegeben, dass N44 möglicherweise als Dual-Variante kommt. ;)


;D

2 x N44 = N48 64CU

Die Gerüchteküche ist wie die CU Anzahl abgekühlt: Von 144CU auf nur noch 64CU :-[
 
Ich glaube eher die haben meinen Beitrag gelesen ...
Ich habe die leise Hoffnung die 8 im ungewöhnlich betitelten Navi48 steht für einen InfinityFabric Chiplet Link.Anhang anzeigen 56112
... und danach angefangen zu "photoshoppen" *lol*

durch die IF-Links in den Dies wäre irgendein Dual-Chiplet sicherlich möglich, ob das für Gaming gut funktioniert und kaufbare Chiplet-GPUs ergibt weiss nur AMD.
 
2 x N44 = N48 64CU

Die Gerüchteküche ist wie die CU Anzahl abgekühlt: Von 144CU auf nur noch 64CU :-[
Unwahrscheinlich denn traditionell haben die kleineren GPUs die höhere Nummer. Auch wurde bisher die Navi GPUs ohne Aussetzer hochgezählt. Dementsprechend würde ich bei 2x Navi 44 Chips (32 CUs) eher mit einer Navi 43 GPU (64 CUs) rechnen und 2x Navi 42 GPUs (64 CUs) könnten 1x Navi 41 werden. Würde man davon ausgehen das die jeweiligen Grundchips ca. eine Verdoppelung der CUs haben könnte eine solche Navi 41 GPU also 128 CUs besitzen.
Das wäre doch nicht die schlechteste Produktskalierung.
 
Das mit der Nummerierung war bisher so. Navi 41/42/43 wurden aber eingestellt. Angeblich weil das chiplet Design zu viele noch ungelöste Probleme verursacht hat. Damit blieb nur der kleinste Chip Navi 44 übrig, weil dieser weiterhin monolithisch designed wurde.
Da man jetzt nur noch einen Low Ende Chip gehabt hätte, hat AMD als Folge einen neuen monolithischen mid range Chip designed (quasi ein 2x N44) und Navi 48 getauft (Navi 45 wollten sie ihn scheinbar nicht nennen).

Mehr CUs wird es bei RDNA4 dementsprechend leider nicht geben.
 
Ja, ich kenne diese Geschichte. Aber hat das auch ein AMD-offizieller einmal so gesagt oder bestätigt, oder ist das nur die Gerüchteküche?
 
@tex_
Das klingt für mich einfach nur merkwürdig da die Entwicklung eines solchen Chips und das Treiben zur Produktionsreife ganz einfach Zeit benötigt die man nach einem solchen Schuss in den Ofen ohne größere Verschiebungen nicht hätte und wenn er von Anfang an z.B. für das mobile Segment eingeplant war würde er ganz einfach anders heißen. Was aber noch viel wichtiger ist, ein Singlechip Design hätte in der Mitte keinen Strich, ein Dualchip Design schon.
Da warte ich lieber den Start der Reihe ab.
 
Ah da ist ein Bild. Das hatte ich glatt übersersehen.
Wenn das wirklich Navi 48 sein soll könnte das tatsächlich auch ein N44 Multichip sein anstatt eines Monolithen.

Die Gerüchte um die Navi41 Probleme gab es schon vor ca.1 Jahr als AMD wohl erste Testchips erhielt. Die haben sich dann mit der Zeit durch weitere leaks zumindest erhärtet. Offiziell hat AMD dazu nie etwas gesagt. Aber in den letzten Ankündigungen von AMD haben sie verlauten lassen, dass sie sich mit RDNA4 auf die Mittelklasse konzentrieren und kein High End model bringen wollen.
Dazu kamen indirekte angekündigungen von N44/N48 über z.b. open source Treiber Einträge.

Wann genau AMD jetzt gegebenfalls seine Pläne von N41 in Richtung N48 umgeworfen hat und was genau N48 ist, weiß bis dato aber wohl nur AMD selbst.
 
2 x N44 = N48 64CU

Die Gerüchteküche ist wie die CU Anzahl abgekühlt: Von 144CU auf nur noch 64CU :-[
Unwahrscheinlich denn traditionell haben die kleineren GPUs die höhere Nummer. Auch wurde bisher die Navi GPUs ohne Aussetzer hochgezählt. Dementsprechend würde ich bei 2x Navi 44 Chips (32 CUs) eher mit einer Navi 43 GPU (64 CUs) rechnen und 2x Navi 42 GPUs (64 CUs) könnten 1x Navi 41 werden. Würde man davon ausgehen das die jeweiligen Grundchips ca. eine Verdoppelung der CUs haben könnte eine solche Navi 41 GPU also 128 CUs besitzen.
Das wäre doch nicht die schlechteste Produktskalierung.
Passt durchaus zur Aussage, dass Huynh das "Volume" erhöhen will. Ich habe nichts gegen Navi 41 128CU (aka 2 x Navi42 GCD). Mit Navi41 würde AMD die günstigen 270mm² 64CU GCDs zusammen auf dem Package haben. ~540mm² GPU-Size ist immer noch etwas unter High-End.

Vielleicht will AMD ja was zwischen "999 USD" (7900XTX) und der "1599 USD" (RTX4090) stellen. Da wäre eine Navi41 128CU mit 512bit SI und 32GB VRAM perfekt. Die superreichen greifen sicher zur overhypten Konkurrenz für 2499 USD.

Für 1299 USD ist eine hypothetische Navi41 120CU / 128CU mit 32GB VRAM sehr attraktiv. Halber Preis, spricht 50% und ~85-90% Leistung vom Top-Dog.

Bei aktuellen Preisen könnte AMD bald 2 x 96CU = 192CU mit 48GB VRAM für 1799 USD verkaufen. Bei RDNA4 sollte AMD die Gamer wieder beschenken mit viel VRAM und viel mehr Compute-Power in gleicher Preisklasse.
Release Q1/2025 für Navi41 128CU (2x 64CU GCD) wäre technisch erwartbar.
 
@tex_
In Anbetracht dessen das für gewöhnlich mehrere Generationen parallel entwickelt werden dürften wäre 1 Jahr wohl erst recht zu wenig für eine solche Neuentwicklung. Wenn aber nur beim Navi 41 die Rede davon war dann könnte ich mir auch vorstellen dass der mal als Quartett angedacht war welches natürlich nochmal eine ganz andere Herausforderung gewesen wäre. Für den Fall könnte ich mir aber durchaus vorstellen das als Fallback eine größere Ausführung mitentwickelt wurde um einfach das Risiko zu minimieren. Dann wären wir aber wieder beim Problem mit der Namensgebung weil er dann von Anfang an dabei gewesen wäre....

Die ganze Geschichte ist so einfach irgendwie nicht rund und damit für mich in sich widersprüchlich.
[automerge]1730486909[/automerge]
@vinacis_vivids
Mit einem 512 Bit Speicherinterface würde ich beim Top Modell nur rechnen wenn man bei den bisherigen GDDR6 VRAM bleiben würde, erst recht wenn man beim Konzept mit dem Infinity Cache bleibt. 128 Bit GDDR6 pro 32 CUs wäre das Verhältnis das bereits die Chips der RX 7000 Reihe hatten. In dem Fall würde ich aber eher mit einer tripple Chip Lösung rechnen weil das breite Speicherinterface auch verdrahtet werden will.
Sollte allerdings der neue GDDR7 Speicher zum Einsatz kommen dann würde ich eher mit einem schmaleren Speicherinterface rechnen. Vielleicht sogar nur mit einem 64 Bit Speicherinterface pro 32 CUs womit man beim theoretischen Navi 41 bei einem 256 Bit Speicherinterface landen würde?
 
Zuletzt bearbeitet:
Ist die Frage was ist billiger und mit größerem Volumen hergestellt werden?
4nm Waferpreise scheint AMD jetzt gut im Griff zu haben.
270mm² 4nm Silizium mit 64CU / 256bit sind ausgerechnet ~ 94,34 USD pro Chip bei 20.000 USD Waferpreis TSMC 4nm 300mm Scheibe.


N4P 270mm² 64CU / 256bit SI / 64MB IF$ als Basis.

Zwei 270mm² N4P Dies kosten also 94,34 USD x 2 ~ 188,68 USD pro GPU@128CU / 512bit SI / 128MB IF$
Yield: 60-70%
300mm wafer_png 270mm CHIP.png
212 * 0,6 ~ 127 funktionierende Chips ~ 20.000 / 127 ~ 157,48 USD pro funktionierender Chip
zwei davon sind ~ 314,96 USD
212 * 0,7 ~ 148 funktionierende Chips ~ 20.000 / 148 ~ 135,14 USD pro funktionierender Chip
zwei davon sind ~ 270,28 USD

Man nehme eine ~550mm² N4P GPU auf eine Wafer: 25mm x 22mm
Ausbeute: wafer_png 550mm GPU.png
101 Dies bei 20.000 USD Waferpreis TSMC 4nm ~ 198,02 USD pro GPU 128CU / 512bit SI / 128MB IF$
Yield? ~50-55%

101 * 0,5 ~ 50 funktionierende Chips ~ 20.000 / 50 ~ 400,00 USD pro funktionierender Chip
101 * 0,6 ~ 60 funktionierende Chips ~ 20.000 / 60 ~ 333,33 USD pro funktionierender Chip

Mit der Multi-Die-Strategie fährt AMD deutlich besser (und günstiger) als single-Die Endgame, wo das SI die größten Flächen verlangt.

Optimal wäre eine nMCD + mGCD Strategie mit 128bit SI. Die Kürzung des SIs von 64CU/256bit SI auf 64CU/128bit SI bringt ~15% Flächenersparnis und höhere Ausbeute. 270mm² * 0,85 ~ 230mm² -> (15,2 * 15,2 ~ 231mm²)

wafer_png 230mm GPU.png
Von 212 auf 253 sind +19,33% mehr Chips auf der Wafer. Die Yield steigt vllt. um 5% auf 75% oder bleibt maximal gleich mit 70%
253 *0,7 ~ 177 funktionierende Chips per 300mm Wafer oder 253 * 0,75 ~ 189 funktionierende volle Chips.
Preis zwischen 112,99 USD und 105,82 USD pro 64CU/128bit/32MB GCD. EIne Senkung von ~157 USD bzw. 135 USD auf 113 USD bis 106 USD ist schon signifikant in der Herstellung.

Eine 3XGCD 64CU/128bit/32MB ergäbe 192CU/384bit SI/96MB IF$ für Navi41,
Eine 2xGCD 64CU/128bit/32MB ergäbe 128CU/256bit SI/64MB IF$ für Navi42,

Vergleich zum 64CU/256bit/64MB IF$
Eine 2XGCD 64CU/256bit/64MB ergäbe 128CU/512bit SI/128MB IF$ für Navi41,

Man simuliert also eine Navi41 192CU/384bit SI/96 MB IF$ gegen eine Navi41 128CU/512bit/128MB IF$.
Die Architekturentscheidung müsste pro Navi41 192CU/384bit/96MB IF$ gehen, aber dieser krankt an Hitrate und Bandbreite. Die 192CU gepresst in N4P sind bei -6% shrink ggü. 5nm sehr sehr teuer. Drei Dies zusammen kosten schon 315 USD bei voller CU-Ausbeute. Das Standardmodell würde eine X3D Version mit 192 MB IF$ brauchen um die 192CU richtig auf die Straße zu bringen. Das verteuert den notwendigen Prozess nochmal. Dazu Energieverbrauch von 500-600W!

Alles Punkte, die gegen eine GPU mit 192CU sprechen.
 
@vinacis_vivids
Die Herstellung der Chips selbst wird zwangsläufig billiger wenn sie kleiner sind da man einfach mehr auf einen Wafer bekommt bzw. die Waferfläche bessert ausnutzen kann und die Ausbeute (Yield) besser ausfällt weil bei der Produktion pro Chip einfach weniger defekte auftreten können. Da kommen aber noch die Folgekosten für ein breiteres Speicherinterface oben drauf denn die zusätzlichen Speicherkanäle wollen auch beim Chip Gehäuse, dem PCB und natürlich bei der Bestückung mit Speicherchips bezahlt werden. Das größte Problem ist dabei vermutlich das PCB der Grafikkarte denn die Leiterbahnen dürfen nur eine bestimmte Länge haben und Kreuzungen von Leiterbahnen sind zu vermeiden, auch weil sie zusätzliche Leiterbahnenebenen bedeuten welche die Produktionskosten für das PCB hochtreiben.

Bei meiner Annahme ging ich allerdings nicht von 3x 64 CU GCD für Navi 41 aus sondern lediglich 3-4x 32 CU die jeweils bei GDDR6 ein 128 Bit oder bei GDDR7 ein 64 Bit Speicherinterface hätten. Der Ansatz wäre dann gewesen die Produktpalette soweit es geht mit einem Basis DIE zusammenzusetzen, hätte den Chipträger des Gehäuses aber entsprechend komplex gemacht udn genau da kann ich mir durchaus vorstellen das es zu Komplikationen kommt die auf die Ausbeute der fertigen GPU gehen und für die man einen Plan B mit einem größeren Basis DIE vorbereitet von dem man lediglich 2 Stück benötigt.
Die größeren 64 CU Chips kämen demzufolge bei GDDR6 auf ein 256 Bit bzw. bei GDDR7 auf ein 128 Bit Speicherinterface. Das Verhältnis von 1 MB Infinity Cache pro CU halte ich hingegen für plausibel da es bereits bei der aktuellen Generation besteht.

Edit:
Wie korrekt die Annahme ist müßte man ja bei dem Aufbau der GPU Dies erkennen können denn eine 4er Kombi mit den kleinen Chips dürften wie bei den ersten Epycs 3x Links für die Kommunikation zwischen den Chips erforderlkich sein, bei einer 3er Kombi 2 und bei der 2er Kombi nur einer. Damit müßte auch erkennbar sein welcher Maximalausbau für das jeweilige Basis DIE angedacht war. Besitzen beide Basischips also nur einen Link dann war auch nur die 2er Kombi angedacht aber das finden wir wohl erst nach dem Produktstart raus. *oink*
 
Zuletzt bearbeitet:
GDDR6 scheint laut allen Gerüchten für RDNA4 gesetzt zu sein. Da die Karten schon längst produziert werden, wird das wohl auch stimmen.
Ich würde da im Moment eher auf einen schnellen RDNA5 Release hoffen, was schnellere Modelle und GDDR7 angeht. Ein Umstieg auf 3nm sollte dann auch die Effizienz wieder etwas deutlicher erhöhen.
Bis UDNA wird man sich wohl noch deutlich länger gedulden müssen.
 
Der GDDR7 Speicher ist wohl auch schon seit März fertig und sollte bereits in Produktion sein. Die wichtigsten Rahmenbedingungen dürften den Herstellern schon länger bekannt sein, wodurch man das Produkt schon darauf ausgelegt haben könnte. So Unwahrscheinlich wäre das also nicht.
Er käme gegenüber GDDR6 mit +60% Bandbreite daher und Größen von 16, 24 und 32 GBit pro Chip würden auch ganz gut zum erwarteten Speicherausbau passen. Mit der Breite von 32 Bit pro Speicherchip und 8 Chips bei einem 256 Bit Speicherinterface sind 32 GB VRAM problemlos drin und mit 2 Speicherchips pro 32 Bit Kanal bleibt auch noch genug Reserve für professionelle Modelle mit einem noch dickeren Speicherausbau.

 
Bei GDDR7 ergibt 37Gbits und 384bit ~ 1776 GB/s Bandbreite zum VRAM.
Ausgehend von 960GB/s bei N31XTX eine Steigerung von +85%!

Da wäre eine 3xGCD 64CU / 128bit / 32MB IF$ möglich.
Zusammen 192CU / 384bit / 96MB IF$.
Drei MCDs oben 48MB und drei MCDs unten 48MB für die XTX 3D Version.

Navi41 XTX 3D
192CU / 384bit / 192MB IF$
24GB GDDR7 37Gbits ~ 1776 GB/s
~ 3,0-3,3Ghz Takt
~ 162 Tflops fp32

Defekte kann man retten inden SEs abgeschaltet werden. Bei zwölf Shader Engines, dann 11 aktiviert:

Navi41 XT 3D
176CU / 320bit / 176MB IF$
20GB GDDR7 37Gbits ~ 1480 GB/s
~ 2,9-3,2Ghz
~ 144 Tflops fp32

Dann zwei defekte SEs:
Navi41 XL 3D
160CU / 256bit / 160MB IF$
16GB GDDR7 37Gbits ~ 1184 GB/s
~ 2,8-3,1Ghz
~ 127 Tflops fp32

Ausgehend von Navi31XTX zu N41XTX 3D, wären dann 61,44 Tflops zu 162 Tflops. Steigerung um +163% Rechenleistung. IF$ um +100% gestiegen von 96MB auf 192MB. Bandbreite von 960GB/s auf 1776GB/s, +85%.

Die zwei GCD Version mit 128CU / 256bit / 64MB wäre möglich. Dann noch zwei MCDs unten und zwei MCDs oben drauf, ergeben plus 32MB + 32MB, insgesamt 128MB IF$.

Navi42 XTX 3D
128CU / 256bit / 128MB IF$
16GB 32Gbits GDDR7 ~ 1024GB/s
~3,0-3,3Ghz
~108 Tflops fp32

Navi42XT 3D
112CU / 192bit / 112MB IF$
12GB 36Gbits GDDR7 ~ 864GB/s
~2,9-3,2Ghz
~91 Tflops fp32

Navi42XL 3D
96CU / 128bit / 96MB IF$
16GB 36Gbits GDDR7 ~ 576GB/s
~2,8-3,1Ghz
~76 Tflops fp32

Mit Navi42XTX 128CU und Navi42XT 112CU hätte man sicher was mitzureden bei "Volumes":
+ fettes Preis-Leistung (hohe Ausbeute durch kleinere DIEs)
+ viel Cache (in 6nm für günstig)
+ bessere Hitrates in 1080p / 1440p / 4K
+ gute Speicherbestückung
+ sehr viel raw Compute power

Zwei RX7800 XT 120CU 32GB 128MB IF$ kulmuliert kosten derzeit 479€ * 2 = 958€.

Da erscheint mir Navi42XTX X3D mit 128CU / 256bit / 128MB IF$ für 999 USD für denkbar.

Für kleinere Karten kann AMD auch unterschiedliche GCDs vereinen. Beispielsweise : 64CU-GCD und 32CU-GCD für eine 96CU GPU.
 
Zuletzt bearbeitet:
Da der Infinity Cache das Speicherinterface entlasten soll sehe ich keinen Sinn in einem allso breiten Speicherinterface.
Eine Konstruktion mit 3x oder gar 4x 64 CU Chips könnte wiederum ganz einfach zu groß und Stromfressend ausfallen. Hinzu kommt das es mit Sicherheit nicht in den bisherigen Preisbereich bis ca. 1000 € passen.
Es passt einfach nicht in die bisherige Produktstrategie.
[automerge]1730582283[/automerge]
Ach ja, zum Thema MCD.
Ich gehe eher davon aus das es sowas nicht geben wird sondern komplette Chips gekoppelt werden.
Das entsprechende Design der aktuellen Generation halte ich dahingehend für sinnlos weil dadurch das Speicherinterface sammt IF zersplittert wird und ausgerechnet bei dem Teil mit dem gröberen Fertigungsprozess sehr kleine Chips gebacken wurden. Als Testbalon für eine Koppelung von Chips über das Speicherinterface und eine einher gehende Zusammenlegung des Infinity Cache und das Sammeln von Praxiserfahrung (z.B. für die Treiberprogrammierung) wäre es allerdings ideal.
 
Zuletzt bearbeitet:
Das MCD Design von RDNA3 ist nicht perfekt. Ein gemeinsames IO Die in der Mitte wie bei Ryzen dürfte bei GPUs aber nur schwer möglich sein. Vielversprechender wäre ein aktiver interposer mit IO und Cache, ähnlich wie man das schon bei MI300 implementiert hat.
Nur multiple GCDs zu koppeln wird mindestens auch einen passiven interposer erfordern. Und man verliert den Kostenvorteil durch den günstigen Prozess für IO und Cache. Ob das dann im Vergleich zu einem großen Die wirklich noch günstiger ist, muss dann schon sehr genau berechnet werden.

Was auch möglich wäre, wäre ein Wafer mit einem kleinen Die (wie z.b. ein Navi44) und bei Bedarf mehrere Dies per reticle stitching zu kombinieren. Das Verfahren dürfte in Zukunft noch interessanter werden, im Moment ist mir außer cerebras WSE noch kein Chip bekannt der das nutzt und auch hier ist zu erwägen, ab wann sich das überhaupt rechnet.
 
Nicht perfekt ist die Untertreibung des Tages es war schlicht überflüssig das DIE für den IF und Speichercontroller in 4 bzw. 6 Teile zu zersplittern weil es kein Produkt mit nur einem IO Chiplet gab.
Ein größeres Chiplet welches die Fähigkeiten von 2-3 aktuellen Chiplets vereint hätten wäre vollkommen ausreichend gewesen.
Der Speichercontroller selbst ist dafür relativ egal weil dieser ohnehin in 32 Bit Blöcken aufgebaut ist an die dann nur noch die Speicherchips kommen und somit problemlos separiert werden können. Der gemeinsame Infinity Cache ist dafür hingegen eher kritisch und benötigt für die Aufteilung massiv Bandbreite um so noch funktionieren zu können. Etwas was auch für die Kombination mehrerer Single Chips extrem wichtig wäre um z.B. einen gemeinsamen Speicherpool zu generieren damit diese bei der Bildberechnung die gleichen Daten nutzen können. Ein vorgelagertes, grobes Sheduling welches die Bildblöcke auf die GPUs aufteilt könnte vermutlich bereits im Treiber stattfinden.
Die kritischste Komponente für ein solches Design wäre vor allem Bandbreite damit alle GPUs am gleichen Bild rechnen können und dafür könnte die aktuelle Zersplitterung ein guter Praxistest gewesen sein.
 
AMD hat ein Nachteil in Economy of Scale bei schlechteren Yields von neuen Fertigungsverfahren. Man verkauft überspitzt formuliert im Ganzen weniger GPU Dies als Nvidia mit einem einzelnen Die. Das spricht für ein einzelnes Chiplet das möglichst flexibel kombiniert werden kann. Allerdings wird man schon für einstellige Prozentpunkte Nachteil von der Hype-Presse abgestraft. Chiplets funktionieren dann nur wenn auch Perf/Watt vorteilhaft ist. Also Cache und I/O in eigener Node.
Ich denke man wollte bei Monolithen bleiben bis ein separater L3 Cache im Interkonnect nicht zu viel Energie verbraucht. Genau das wurde mit N31 vergeblich versucht. Das in den Griff bekommen oder Apples Ultra-Konzept wäre für Gaming mit schnellem shared L2 notwendig. Mit UDNA sehe ich eher letzteres das dann als Pärchen für Instinkt auf Interposer kombiniert würde.

Ich glaube nicht dass AMD mit RDNA4 schon so weit ist etwas mit Multichips anzubieten. Man würde öffentlich anders auftreten.
 
RDNA3 hat die infinity cache Bandbreite im Vergleich zu RDNA2 um 80% erhöht.

Siehe folgender unabhängiger Test.
https://chipsandcheese.com/p/microbenchmarking-amds-rdna-3-graphics-architecture

Auch die Nutzung des gesamten Cache Pools war kein Problem.
Nur die Latenz zum infinity cache hat zugenommen, das sollte für eine GPU aber auch weniger tragisch sein.

Der Grund für die kleinen io Dies ist auch einfach zu beantworten. Man braucht nur ein IO Die für die einzelnen Produktabstufungen (4, 5 oder 6 für 256/320/384 Bit SI). Mit einem größeren wäre mindestens die Stufe für 320 Bit entfallen.

Was am RDNA3 chiplet Design am schlimmsten ist, ist dass Cache Zugriffe jetzt mehr Energie Kosten und dass das Cache System bei geringen Lasten ein wenig schlechter skaliert.
Wenn man jetzt die GPU komplett in 2 Teile teilt hat man erst mal ein ähnliches Problem mit lokalen und off Chip Cache Pool. Dazu kommt dann das Problem, dass auch noch das Front End geteilt ist, was auch wieder einiges off Chip Kommunikation und damit auch Energie kostet.
Chiplets haben bei GPUs leider immer auch deutliche Nachteile.
 
@E555user
Nichts für ungut aber das spielt beim Endkunden schon lange keine entscheidene Rolle mehr, ebenso wenig wie das Preis-Leistungsverhältnis. Selbst der Preis scheint nur noch eine untergeordnete Rolle zu spielen. Bei Grafikkarten geht es inzwischen hauptsächlich nur noch um die Begründung von Gewohnheitskäufen.

Für AMD geht es vermutlich eher darum Produkte so flexibel wie möglich einsetzen zu können und dabei Kosten zu minimieren. Genau da setzt auch die Chiplet Strategie an denn mit steigender Größe und Komplexität des Chips wird nicht nur die Yield (Ausbeute) der Chips in den Keller sindern auch die Ausnutzung der Waferfläche an sich und beides macht die Chips am Ende teurer weil sich die Produktionskosten des Wafers auf weniger (voll funktionstüchtige) Chips verteilen können.

EIn Nachteil der Aufteilung ist allerdings das dadurch die Kosten beim Chipgehäuse steigen. Zum einen wegen der steigenden Koplexität des Chipträgers (sie müssen ja miteinander kommunizieren und nicht nur die Signale auf eine größere Fläche verteilen) und zum anderen weil es einfach mehr Teile gibt die zum Ausfall des Endprodukts führen könnten.
[automerge]1730629937[/automerge]
@tex_
Es gibt bei Navi 3x kein IO Die an sich denn dafür müßte zumindest auch der PCIe Controller mit dabei sein, ist er aber nicht. Das Speicherinterface an sich ist kein Argument denn das wäre auch wie bisher per Teildeaktivierung möglich gewesen. Eine MNöglichkeit zur Verbesserung der Chipausbeute die den kleinen Chiplets fehlt.
 
Zuletzt bearbeitet:
Vielversprechender wäre ein aktiver interposer mit IO und Cache, ähnlich wie man das schon bei MI300 implementiert hat.
Genau - und wenn nur allein die vorhandene Erfahrung mit dem Verfahren vorhanden ist.

Ich glaube nicht dass AMD mit RDNA4 schon so weit ist etwas mit Multichips anzubieten. Man würde öffentlich anders auftreten.
Ganz genau.Oder uerberrascht hier AMD massiv?
Waere ja mal was ;-) Bloss deutet darauf einfach zu wenig hin.

Ich denke eher, dass RDNA ziemlich genau in die Richtung wie allg. spekiuliert und hoffe, dass RDN5 dann schnell folgen wird, um wieder mehr Fahrt und Innovationen aufzunehmen in der Architektur/Design.

Gruss,
TNT
 
Ich habs rausgefunden: RDNA4 - 144CU - 128MB IF$ - 512bit SI - 32GB GDDR7 VRAM

Navi-31-Die-edired.webp


AMD Radeon 8900 XTX
9.216 Shaderprozessoren
144 Compute Units
~ 3,25 Ghz Shader CLK
~ 3,66 Ghz CP CLK
~ 119-135 Tflop/s fp32
128MB Infinity Cache
512bit Speicherinterface
32GB GDDR7
~ 1,792 TB/s Banbreite
~ 500-650W Monster ?

Wenn AMD das Ding für 1299 USD rausbringen kann, ist das ein "Volume" big hit. Ein 390 mm^2 TSMC 4nm GCD ist viel günstiger als ein 600-650mm^2 3nm, wo das SI mit auf dem Chip sitzt.

Bei Huang werden ja 2000 USD für Blackwell 3nm 170SM / 21.760 CUDA / 512bit / 32GB GDDR7 gehandelt.

Bei 2,52 GHz Blackwell 5090 liegt die Konkurrenz bei ~109 Tflops fp32
Bei 3,0Ghz schon ~ 130 Tflops fp32.

Nvidia müsste runter auf 1499USD gehen statt 1999 USD.

RTX 5090 AI - 170SM - 1499 USD
RX 8800XTX - 144CU - 1199 USD
 
Zuletzt bearbeitet:
Zurück
Oben Unten