AMD RDNA 4 - 144CU, 48GB VRAM, 3nm + 4nm

War es nicht so das bei Vega20 der Großteil der zusätzlichen Transistoren für die Taktsteigerung drauf ging?
Das ist einfach der mit Abstand ineffizienteste Weg zur Leistungssteigerung aber der Renderpart der Architektur war offenbar am Ende der Ausbaumöglichkeiten angelangt. Meiner Erinnerung nach zeigte sich aber bereits bei den Tests der Hawaii Modellen das die GPU beim Rendern unzureichend mit den zusätzlichen Recheneinheiten skalierte und beim Fiji war dann bereits das Ende der Fahnenstange erreicht.
RDNA war diesbezüglich noch am Anfang und entsprechend einfacher gestaltet sich dann die Leistungssteigerung, ich hoffe das die Architektur auch noch deutlich mehr Ausbaureserven als ihr Vorgänger besitzt.
 
Vielleicht noch mal Jim Keller holen für next uArch multi-GCD.

Bezüglich Vega uArch : die wurde noch auf 2,2Ghz in der APUs getaktet.
7nm am Desktop sind ~1,8Ghz. Polaris RX590 ~1,6Ghz.
Navi uArch ist bei ~3,0Ghz, da ist die Taktwall. 4Ghz bei RDNA4 und 5Ghz bei RDNA4?
 
Ja aber gleichzeitig wurden im Vergleich zum Raven Ridge auch Recheneinheiten abgebaut und damit deren Platzbedarf verringert. Die schrumpften von 11 Vega CUs auf 8 bei Renoir. Bringt halt nichts die GPU zu beschleunigen wenn sie bereits davor von der Speicherbandbreite limitiert war.
Die reale Taktgrenze von Navi 3 ist eher bei unter 3 GHz weil der Chips sonst säuft wie nen Loch und auch bei den Nachfolgern würde ich mit deutlich geringeren Taktsteigerungen rechnen. Bei den beiden Generationen davor war sie auch deutlich geringer. realistisch betrachtet eher bei ca. 400 MHz weil die Karten ganz einfach ins Powertarget rennen und ich rechne bei sowas eher mit einem Abflachen der Kurve.
 
Woe wird Intel die IGPU mit Bandbreite versorgen da sie diese allg. in den naechsten Generationen doch beinahe durch die Bank deutlich aufbohren?

TNT
 
DDR5 Speicher bietet doch bereits deutlich mehr Bandbreite als DDR4 Speicher.
Da die IGP der aktuellen Core Generation selbst mit DDR5 Speicher noch von der Gaming Leistung her offenbar noch nicht einmal mit AMDs DDR4 APUs mithalten kann ist da ohnehin viel Platz nach oben.....
 
@E555user

Raja war als Kopf der RTG-Abteilung im Prinzip komplett in Polaris, Vega und RDNA1 involviert und auch für die Ergebnisse verantwortlich. Die Vega uArch war im Ergebnis äußerst enttäuschtend was die Leistung anging und konnte nur selten glänzen (Compute-Shader lastig, ETH-Mining, HDR-10bit Rendering, HBCC). Der Chip war mit 484mm^2 sehr groß und mit HMB2 Speicher sehr teuer. Konnte allerdings Aufgrund fehlenden Software-Supports nicht an die Spitze.
Das war für AMD bis dato der letzte Versuch die GPU-Krone zu ergreifen. Kosten wurden nicht gescheut. Selbst die erste 7nm GPU war Vega20. Das Vertrauen in Raja (Vega) war unendlich groß, inkl. Apple.

Aufgrund dieser Niederlage am PC hat Su sich von Raja getrennt und die GPU-Abteilung neu strukturiert. Spaltung in Grafik(RDNA) und Compute (CDNA).

Die kleineren Brötchen Polaris10 ++ Aufguss 232mm^2 und Navi10 251mm^2 hielten AMD GPUs weitgehend am Leben. Das Desktop-Highend hat man (fast) komplett Jensen überlassen, was ich sehr sehr bedauere, und das nun seit mind. 10 Jahren, insbesondere mit RDNA3, wo nur Kosten optimiert werden. Im Prinzip ist das 304mm^3 GCD vs 608mm^2 GPU, also nur die Hälfte der Die-Größe der Konkurrenz.

RDNA3 ist bei gleicher Die-Größe durchaus stärker als die Konkurrenz.

Hoffe RDNA4 greift wieder voll an die Spitze inkl. RT-Cores an und bringt die Wende am Desktop-Markt . Dafür muss massivst am RT geschraubt werden, bei Raster herrscht fast Gleichstand trotz des deutlich kleineren Chips.

Das würde auch deutlich mehr Schwung und Marktanteile bringen, wo AMD schon mal bei >50% war.
Das sehe ich dann doch gänzlich anders.

Die Daumenregel ist: von ersten Designüberlegungen bis zum Chip im Retail benötigt 5 volle Jahre. Schneller gehen nur Iterationen. Kann man auch gut bei Jim Keller und Zen nachrechnen, auch bei anderen Chip-Startup Projekten. Koduri war 5 Jahre bei Intel, davor nur! 4 Jahre bei AMD.

"Komplett involviert und verantwortlich" bedeutet nicht, dass er in Form von Micro-Management alle Details selbst ausführen konnte. Dafür sind die Teams viel zu gross, das Erbe der GCN-Entwicklung konnte nicht wie etwa bei Ryzen komplett ignoriert werden. Der bestehende Softwarestack ist viel zu wichtig.

Dass Vega eine sehr gute Architektur war hat der Erfolg bei Mining und bei Apple in Workstations gezeigt. Man sollte nicht vergessen, dass Apple zu Radeon wechselte nachdem Koduri von Apple kam. Man hat weder mit Polaris noch mit Vega die avisierten Taktraten/Watt mit Glofo erreichen können.
Es hat sich eben gezeigt, dass die Probleme von Vega nach der ersten Iteration bei TSMC identifiziert werden konnten. Vega war unabhängig der Fertigungstechnologie auf Augenhöhe mit Pascal, wenn nicht gar etwas besser für künftige Entwicklungen. CDNA1 ist eine Weiterentwicklung von Vega-20, auch keine Revolution.
Für Gaming hat der neue Vega Prim-Shader nicht funktioniert, heute wissen wir mit Mesh-Shader, dass es genau die richtige Richtung war. Der HBCC war eher weniger erfolgreich, aber für IF-Cache war das sicherlich eine wichtige Lernphase.

Lisa Su bzw. AMD hat sich nicht von Koduri getrennt. Koduri wurde die Technologies Group mit vielen Freiheiten ermöglicht. Er wurde dennoch von Intel abgeworben, er wollte gar bei Intel CEO werden, ein Ehrgeizling. Die Nachfolge bei AMD wurde relativ spät m.E. zur Hälfte (Rayfield) sehr unglücklich besetzt.

Als Chef konnte Koduri im Wesentlichen grobe strategische Fehler verhindern und neue Anreize und Entwicklungspfade setzen. Bei der kleinen Anzahl Mitarbeiter musste man möglichst kompatibel mit altem Softwarestack bleiben. Da fällt mir insbesondere folgendes ein, was in seine Ära gehört:

- Capsaicin/Adrenalin Treiberprogramm
- ROCm Compute Stack
- Beginn der Öffnung der Treiber/Firmware für Linux und OSS
- Schrittweise Abkehr von der hergebrachten Render-Pipeline
- Mantle-Entwicklung und Abgabe an Khronos für Vulkan
- Erste Prim-Shader Versuche in HW und Cache-Anbindung/Hierarchie für Tiled-Based Rendering
- HBM-Entwicklung, zu kleiner Fijii VRAM, später Versuche für HBCC und GSSD mit Vega
- WGP-Konzept zur Verdopplung der ShaderUnits und deutlich verbesserten LocalCache vs. GCN
- Relaunch der Pro-Serie, Beerdigung von FirePro, Apple-Lieferant mit Ablösung von nVidia
- 2 Generationen Konsolenchips
- der überlebensnotwendige Wechsel zu Glofo weg von TSMC-Fabs irgendwie überstanden
- Polaris als Preisbrecher mit mehr RAM, ewige Optimierung mit Glofo

Ich würde sagen er hat das Beste aus dem gemacht was möglich war. Bei Intel wirds ihm nicht viel anders ergangen sein.

RDNA3 als Navi31 hat womöglich ein Problem mit dem Design, das andere Navi3x nicht aufweisen werden. Das muss die Zukunft zeigen. Wäre da wirklich ein FauxPas im Chipdesign kann man das David Wang aber auch nicht anhängen. Schon eher die Entscheidung auf kleineren IF-Cache zu gehen und die Treiberentwicklung nicht vor dem Hard-Launch abgeschlossen zu haben, ein N31 vor einem N33 zu bringen....

RDNA4 wird die gleichen Herausforderungen haben und gleichermassen eine iterative Weiterentwicklung bleiben.

Problem No.1 ist Softwaresupport und der Softwarestack. Wenn UE5 die nächsten Monate vermehrt in Games auftaucht wird man sehen wie es im Konkurrenzkampf mit Nvidia wirklich aussieht. Mit Raytracing lässt man Nvidia ein Marketingfeld weitgehend ungestört belegen, ähnlich wie Tesselation damals. UE5 mit ein paar Tricks zu GlobalIllumination kann das weitestgehend obsolet machen.

Auch wenn Sam Naffziger und seine Mitstreiter für Chiplet-Designes noch einiges in Hardware rausholen können braucht es immer noch ein sehr gutes Software-Team.
Mit der aktuellen Weiterentwicklung rund um FidelityFX und GPUopen bin ich da zumindest zuversichtlich, dass sie auf die richtigen Weg sind. Ob die Geschwindigkeit ausreicht ist da schon eher die Frage. Ich hoffe auch dass Polaris und Vega noch ein/zwei Jahre weiter supportet werden.
 
Bei RDNA3 könnte es schlichweg noch so sein, dass hier die monolithische Variante (Navi33) im N6-Prozess die bessere/effizientere zu sein scheint und sich die Aufteilung erst dann wirklich lohnt, wenn es deutlich mehr Cores im kleineren Prozess (N5 oder N4) werden als bei Navi31. Hier bin ich gespannt, was bezüglich N32 kommt: wird der wie bisher spekuliert oder doch ein größere Monolith in N6? Oder es ist schlichtweg die Umsetzung von RDNA3 auf N5 noch nicht perfekt: hier wird der Vergleich der CUs von Navi33 mit denen von Phoenix mehr zeigen.
 
Problem No.1 ist Softwaresupport und der Softwarestack. Wenn UE5 die nächsten Monate vermehrt in Games auftaucht wird man sehen wie es im Konkurrenzkampf mit Nvidia wirklich aussieht. Mit Raytracing lässt man Nvidia ein Marketingfeld weitgehend ungestört belegen, ähnlich wie Tesselation damals. UE5 mit ein paar Tricks zu GlobalIllumination kann das weitestgehend obsolet machen

Software ist das Schlüsselwort. Ich bin gespannt wie lange sie für FSR 3 brauchen werden. die letzten Gerüchte scheinen ja auf Ende erstes Halbjahr oder optimistisch Mai hinzudeuten.

Zuletzt wurden auch 2 neue Stellen im Bereich des Adrenalin-Treibers neu besetzt. ich habe aber keine Ahnung, wie groß das Team insgesamt ist.

Von insgesamt aktuell 966 ausgeschriebenen Stellen sind übrigens 406 Software Development.
Mit ROCm habe ich aber zum Beispiel auch nur eine gefunden.
 
Zuletzt bearbeitet:
Der HBCC war eher weniger erfolgreich, aber für IF-Cache war das sicherlich eine wichtige Lernphase.
Ehrlich gesagt kann ich mich diesbezüglich nicht beklagen denn der dadurch virtuell vergrößerte VRAM arbeitet bei mir performanter als der klassische VRAM Überlauf in den RAM.
Allerdings habe ich bei meiner Vega64 den Eindruck das der für HBCC zugewiesene RAM nicht geblockt wird und man auf genug RAM Reserve achten muss damit die Speicherbelegung im Grenzbereich nicht kollidiert. Forspoken reagierte durch den hohen RAM und VRAM Bedarf bei 16 GB RAM garnicht gut darauf. Entweder fehlten beim hohen VRAM Puffer im laufe des Benchmark Durchlauf Texturen oder das Spiel schmierte irgendwann ab. Nach der Aufstockung auf 32 GB RAM lief es sauber durch.
 
Ich habe mal durchgerechnet und spekuliere für N41XTX-GCD
+70% Dichte kommt von TSMC 3nm vs 5nm. Da auf der GCD alles Logik ist, kann man diese Zahl annehmen.
Weil 3nm sehr teuer ist, schätze ich dass AMD bei max. ~300mm^2 bleibt.

Cores: 9216SP (+50%)
Die Size (Annahme) : 304mm^2 (+- 5%)
GCD-Dichte: 150,2M / mm^2 X 1,7 ~ 255,34M / mm^2
Transistoren GCD: 77,600 Mio. (+70%)
Transistoren pro Core: 8,420 Mio. Tr. Pro Core. (+13%)

Die einzelnen Core werden deutlich dicker, haben somit Platz für mehr KI/AI-Cores. Dazu noch mehr RT und Takt.

Eine zweifache N41XTX-GCD Ausführung käme da auf 18432SP, also eine Verdreifachung der Shader ggü. N31XTX.
Diese Königs-Lösung wird wohl für den Consumer zu teuer sein.
Stattdessen gibs FSR3.0 und vllt. Nur 180mm^2 GCD um den Preis zu drücken auf 999$ pro GPU.
 
hmmm ich weiß nicht, eben weil der Prozess so teuer sein wird und eine doppel Chip Version geplant ist würde ich vor allem am Anfang eher mit einem deutlich kleineren Die rechnen, schon allein um die Chip Ausbeute hoch zu schrauben. Deshalb würde ich bei der Generation eher mit einer Größe von ca. 200 mm² oder noch weniger rechnen.
Damit könnte vermutlich selbst die single GCD Variante noch mit dem Navi 31 mithalten, im Duo wäre eine kräftige Leistungssteigerung drin und man könnte dennoch selbst in der Anfangszeit mit einer brauchbare Chip Ausbeite rechnen.
 
Ist das sicher, dass AMD mit Navi4x auf 3nm gehen will? Die Roadmap spricht ja nur von "advanced Node", was für mich eher nach N4 klingt. Nachdem man es bisher mit 5nm nicht geschafft hat, viel leistungsfähiger und effizienter als auf N6 zu sein, wäre es vielleicht besser, hier erstmal zu optimieren, so wie RDNA1 auf RDNA2 in N7. Zudem dürfte N4 auch für die APUs noch länger wichtig bleiben, sodass Navi4x auf N4 meines Erachtens viel mehr Sinn macht.
 
Ist das sicher, dass AMD mit Navi4x auf 3nm gehen will? Die Roadmap spricht ja nur von "advanced Node", was für mich eher nach N4 klingt.
1679996180521.png

Sicher ist ja gar nichts, aber da wir ja eher von Ende 2024 reden, dürfte man schon von N3 ausgehen.
 
Zuletzt bearbeitet:
Lisa Su verhandelt schon eine Weile mit TSMC zwecks 3nm und 2nm Fertigung.

Allerdings werden da die AM5 CPU's bevorzugt. Ob da noch 3nm / 2nm Kapazitäten für RDNA4 noch frei sind?

Wafer sind ja eigentlich gleich, nur die Baupläne sind anders.
 
Für Consumer-GPU wird 3/2nm da noch zu teuer sein.

Bei den AM5 CPUs wird das nur kommen, weil AMD die selben Chiplets auch für Epyc nutzt!
 
Nun ja, mit den CPUs kann man gut starten weil deren CPU Chiplets recht klein sind und man so selbst bei einem nicht ganz optimal laufenden Prozess noch eine brauchbare Ausbeute rausbekommen kann. Je größer der Chip desto schwerer wird es was voll funktionstüchtiges raus zu bekommen weil einfach mehr Fläche da ist bei denen Fehler zuschlagen können.
 
Für Consumer-GPU wird 3/2nm da noch zu teuer sein.

Tjoa, ist ja vieles möglich. GCD in 3 oder 4 nm.
MCD dann halt in "größer".

Wer weiß, was AMD bei RDNA 4 noch ändern wird. Ich denke da wird man einen Schritt weiter gehen.
 
Würde es sich denn überhaupt realistisch gesehen mit den Kapazitäten bei TSMC ausgehen, wenn AMD CPU-Chiplets und Consumer-GPUs in 3nm herstellen lässt?

CDNA kommt ja auch noch dazu, dort wechselt man kaum nach RDNA auf 3nm.
 
Wenn die GPU Chips deutlich größer sind bietet es sich aber geradezu an den Fertigungsprozess erstmal mit den kleineren Desktop Produkten einzufahren um nicht zu viel Schrott zu produzieren. Das spart ja auch Fertigungskapazitäten weil einfach weniger vom Wafer entsorgt werden muss da der Fertigungsprozess Zeit zum reifen hatte.
 
Ja eh, deswegen wohl zuerst 3nm Chiplets für Epyc.
Diese Chiplets kann man dann auch für AM5 nutzen.

Dann wohl zuerst CDNA und erst dann RDNA in 3nm.
 
Ich gehe allerdings davon aus dass die RDNA 4 Chiplets kleiner ausfallen dürften als beim Nachfolger von CDNA 3. CDNA 3 soll ja lt. der Folie aus dieser News auf dem 5nm Prozess aufbauen.
 
Lisa Su verhandelt schon eine Weile mit TSMC zwecks 3nm und 2nm Fertigung.

Allerdings werden da die AM5 CPU's bevorzugt. Ob da noch 3nm / 2nm Kapazitäten für RDNA4 noch frei sind?

Wafer sind ja eigentlich gleich, nur die Baupläne sind anders.
Bitte What ?

Bekommt AM5 noch eine 8000 Reihe ?
 
Vega uArch hat 14nm und dann den Übergang zu 7nm gemacht.
Navi uArch von 7nm/6nm auf aktuell 5nm/4nm.

@WindHund

AM5 ist doch erst frisch auf dem Markt. Der 7950X3D ist praktisch immer ausverkauft. Der Sockel hält bis 2025++.

Zu RDNA4 : ich gehe stark von 3nm GCD und 5nm/4nm MCD aus. Vielleicht ist 300mm^2 GCD doch etwas zu groß. Eventuell werden es auch nur ~200mm^2 GCD in 3nm.

Der Top-Dog N41XTX-GCD wird sicherlich 3nm. Die niedrigeren GPUs dann teilweise 4nm. Eine große interne uArch Änderung erwarte ich nicht bei RDNA4, sondern eher die Implementierung des 2XGCD-Konzept mit einem stark ausgebauten Command-Prozessor für KI/RT sowie 3D-MCD-Cache stacking und Kohärenz beim V-Cache Plus IF$.

AMD hat auch schon gesagt, dass man im GPU-Consumer-Bereich den Preis von 999$ halten will. Weiß nicht ob das möglich ist bei 2X 300mm^2 GCD in 3nm. Sieht eher nach 2X 200mm^2 GCD aus wo die Ausbeute extrem hoch sein dürfte und die Preise relativ moderat bleiben. Allerdings wäre der Abstand zum kleinerer N42 GPU recht groß, wenn dieser nur 1X 200mm^2 GCD haben sollte. Theoretisch ist N41 dann doppelt so schnell wie N42, weil doppelte Compute-Power.

Man müßte mal kalkulieren / schätzen was solche GPU-Konfigurationen in der Herstellung kosten inkl. AMD-Marge, um den Preis und die theoretische Leistung rechnerisch zu beurteilen.

Was relativ klar ist, dass AMD die Konkurrenz deutlich überholen kann.
 
llerdings wäre der Abstand zum kleinerer N42 GPU recht groß, wenn dieser nur 1X 200mm^2 GCD haben sollte. Theoretisch ist N41 dann doppelt so schnell wie N42, weil doppelte Compute-Power.
Nur wenn der Takt beibehalten und die GPUs nicht beschnitten werden. ;)
Teildeaktivierte wird es schon im Rahmen der Ausbeuteverbesserung immer geben und will man die Verlußtleistung nicht explodieren lassen wird man beim Doppelpack wohl auch die Taktfrequenz etwas zurückfahren. Schon werden die Abstände zwischen der single Chiplet und der Dual Chiplet Variante deutlich kleiner weil die teildeaktivierten Modelle ohnehin noch dazwischen rutschen.
 
Zurück
Oben Unten