AMD RDNA 4 - 144CU, 48GB VRAM, 3nm + 4nm

Auf Chips-and-Cheese gibt es ein Analyse-Versuch bzw. Spekulation zu RDNA4 anhand der bisher bekannten ISA-Änderungen, die in Linux/LLVM sichtbar wurden.
  • Granularere Barriers für weniger Stalls/Waits in Threads
  • Verbesserte Verwaltung der Cache-Kohärenz mit L1 Zugriff für mehrere CUs
  • Verbessterte AI Matritzen Berechnungen und Sparcity Matritzen
  • Flexibleres Prefetching für Instruktionen und Daten
  • 8 und 16 Bit Load und Verarbeitung für Scalare Typen (bislang nur Vektoren)
Damit würde RDNA noch flexibler für Compute-Aufgaben und komplexen Shadercode.
 

RDNA 4 BIG Specs & Perf Update | The PERFECT Budget GPU?!​


Sieht nach einer kleinen Die von ~220mm² auf N3 aus. Wenn AMD mit "nur" ~220mm² N3 N48 RDNA4 im Raster die RTX4090 einholt und im RT die RTX4080, dann kann Nvidia im Gaming einpacken. AD102 braucht 609mm² "N4" und AD103 ~ 379mm². Einen ähnlichen Push gabs mit RDNA1 aka RX5700 XT mit 251mm² gegen RTX2080 mit ~545mm².
 
Den spekulieren Specs im Video nach entspricht der N48 fast genau einer 7800XT und liegt knapp unterhalb einer 7900 GRE. Selbst wenn die Leistung pro CU deutlich steigen sollte, wovon im Moment nicht ausgegangen wird, würde die Karte dann an der Speicherbandbreite verhungern. Einzig im Ray-tracing könnte RDNA4 dann noch deutlich zulegen.
Bessere Effizienz als RDNA3 ist quasi auch Pflicht um konkurrenzfähig zu bleiben. Am Ende wird hier AMD bei dieser Generation keine andere Wahl haben als über den Preis Kunden zu gewinnen. Und im oberen Leistung-Segment wird Nvidia leider wieder verlangen können was sie wollen.

Ich hoffe mit RDNA5 schafft AMD es sein Multi Chiplet Konzept für GPUs zu verwirklichen.
 
Also gehen alle d'accord mit RDNA4 Chipgröße ~220mm² ähnlich Polaris30 Chipgröße ~232mm² ?
Ich kann mir auch einen 3nm 220mm² Chip vorstellen, wenn dieser genug leistungsfähig und vor allem bezahlbar bleibt.

Beim Übergang von GCN zu RDNA hat AMD auch zweitgleisig gefahren: Vega 64 14nm 484mm² , Radeon VII 7nm 331mm² auf RX 5700 XT 7nm 251mm² usw. und die Chipgröße bei gleicher Leistung sukzessive verkleinert.

Fiji10 4096 SP / 3584 SP ~ 1,0 - 1,05 Ghz 596m² 14nm
Polaris10/20/30 2304 SP / 2048 SP ~ 1,3 - 1,60 Ghz 232mm² 14-12nm
Vega10 4096 SP / 3584 SP ~ 1,3 - 1,67 Ghz 484mm² 14nm
Vega20 4096 SP / 3840 SP ~ 1,6 -1,90 Ghz 351mm² 7nm
Navi10 2560 SP / 2304 SP ~ 1,9 - 2,1 Ghz 251mm² 7nm
Navi21 5120 SP / 4608 SP ~ 2,0 - 2,5 Ghz 520mm² 7nm
Navi31 6144 SP / 5736 SP ~ 2,3 - 2,7 Ghz 529mm² 5nm / 6nm

Navi48 4096 SP / 3840 SP / 3584 SP ~ 2,9 - 3,2 Ghz 220mm² 3nm ???

Wenn der Taktverlauf doch so verläuft mit 300 bis 400 Mhz Taktgewinn pro Interation, kann man von 2,6 (2,7) bis Obergrenze 3,1 Ghz ausgehen. Ich sehe bei meiner N31XTX auch mal (aber nicht immer!) ~ 2,9Ghz Shader und ~3,2Ghz Front-End Takt.

N48 legacy mit 64 Compute Units sind also 4096 legacy Shader Prozessor. Diese 32 WGPs bei 2,9Ghz Shader und 3,2Ghz Front-End Takt sind durchaus realistisch.
Das ergibt ~ 47,53 Tflops fp32 dual-issue, wenn man die MBA 7900XT mit 2,3Ghz nimmt, sind es ~ 49,45 Tflops fp32 dual-issue. Ein 220mm² 3nm TSMC inkl. Package muss nur günstiger sein als ein 521mm² Package samt 5nm GCD + 6nm MCD und die gleiche oder bessere Leistung bringen bspw. durch die uArch mit Matrix-Einheiten plus Ray Tracing Verbesserung (samt FSR4 mit x4 fp16 Compute).

Vermutlich werden die RX 7900XT(X) mit N48@4096SP@2,9-3,2Ghz ersetzt, weil sie günstiger zu produzieren sind. Weil:
Weniger Logik = weniger Fläche = mehr Ausbeute = mehr funktionale Chips = weniger Herstellungskosten (pro Chip).

Die Namensgebung wäre dann 8700XT mit 16GB VRAM entsprechend. Das lässt noch Platz nach oben offen. Die 8800XT mit 32GB (2 X N48) und 8900XTX (3 X N48) mit 48GB als Überraschung für den Gamer nach oben verkaufen. Wurde ja auch mit der 4870X2 , HD5970, 295X2 usw. gemacht. Fast reine Halo-Produkte für viel Geld. GDDR6 ist gerade günstig, 48GB würden nur 4USD X 6 = 24 USD kosten. Die drei N48 GCDs könnte AMD auch zusammen packen und mit 48GB Speicher verkaufen. Das wäre ein großes Geschenk für den Gamer, aber wahrscheinlich zu teuer.

Eine zwei N48-GCD ~ 440mm² Konfiguration ist doch sehr wohl möglich und auch noch bezahlbar? bei 1000 USD ?
Das wären 8192 SP und max. 512bit max. 32GB VRAM auf einer Grafikkarte. Möglich wahrscheinlich schon, aber macht AMD das mGCD-Package schon für RDNA4 oder erst für RDNA5 für den Consumer frei? Ich wünsche es mir schon für RDNA4, allein um Dual-UHD Monitor, also 7680 X 2160 @Max. 240hz (halbwegs nativ) in Zukunft betreiben zu können.
 
Also gehen alle d'accord mit RDNA4 Chipgröße ~220mm² ähnlich Polaris30 Chipgröße ~232mm² ?
Die Diesize ist in N4P gemeint. Diese dürfte durchaus hin kommen, wenn man Navi-48 mit Navi-33 vergleicht: N4P liefert rund die doppelte Transistoren-Dichte bei CU/GPU-Kernen: Navi33 hat 16WP/32CU in 6n und Navi48 genau das Doppelte davon; diese haben zwar ein paar Erweiterungen (RT), aber dürften auch etwas in Richtung Effizienz/Dichte optimiert sind. Sollten die L2/L3-Caches die gleichen Tricks verwenden, wie sie AMD für den Zen4c angewandt hat (also nur noch 6T-Cellen statt 8T-Cellen), sind hier enorme Einsparungen in Diesize drin, ebenso wird die Video-Einheit etwas kleiner in N4P ausfallen. Allerdings schrumpfen die Ram-Controller nur wenig und deren Breite verdoppelt sich von 128Bit auf 256Bit.
 
Navi33 ~ 204mm^2 6N
32CU - 16WGP
128bit SI
Preis : ab 280€ 8GB / ab 350€ 16GB

Navi48 ~ 220mm^2 4NP
64CU - 32WGP
256bit SI
Preis :
Wenn N31XTX doch dauerhaft bei ~1000€ bleibt, kann AMD den ~220mm N4P N48 recht mit hoher Marge verkaufen. Der Preis einer RTX4080 16GB AD103 379mm^2 "4N" sollte erreicht werden, bei hoffentlich etwas besserer Leistung.

Polaris10 ~ 232mm^2 14nm
36CU legacy
256bit SI
Preis damals: ~ 200-250€

Das Zeitalter der 16GB Karten beginnt sich auszubreiten. Bei RDNA4 könnte AMD auch die 32GB Version raushauen, neben den 16GB Version(en).

So eine RX 8800 XT N4P 16GB ~220mm^2 gegen die RTX 4080 "4N" 16GB ~379mm^2 wäre absolut TOP für den Preis von 500 - 600€ pro Grafikkarte im Vergleich zu jetzigen Preisen von 1000-1200€ für ne 16GB Karte.
AMD könnte in diesem Bereich viele Marktanteile und Spieler gewinnen.

Leider kein Gegner für Blackwell GB102 192SM in Sicht, außer dem hypothetischen 2 X N48-GCD mit insgesamt 128CU.
 
Ja das könnte so grob hinkommen. Ich vermute aber das AMD dann entweder GDDR7 nutzen wird oder alternativ die Hit-rate vom Infinity Cache deutlich erhöht. (Ersteres halte ich für wahrscheinlicher)
Sonst wird ein Leistungsniveau der 7900XT oder sogar noch höher wohl nicht erreichbar sein (dank deren 320b SI und mit 80MB größeren IF cache).

2xN48 scheint ja laut Gerüchten bereits gestorben zu sein. Gab wohl noch zu viele Probleme mit den Prototypen. *noahnung*
 
2xN48 scheint ja laut Gerüchten bereits gestorben zu sein. Gab wohl noch zu viele Probleme mit den Prototypen. *noahnung*

Ich denke, dass AMD aktuell seine Ingenieure schlichtweg für Anderes besser einsetzen kann bzw. einfach aktuell kaum Entwicklungs-Resourcen für "Sonderprojekte" verfügbar haben dürfte. Es steht aktuell einfach zu viel an: Zen5 (Server, Desktop und Strix!), MI300-HBM3E und MI400, Rdna4, PS5-Pro-SoC etc.
 
2xN48 scheint ja laut Gerüchten bereits gestorben zu sein. Gab wohl noch zu viele Probleme mit den Prototypen. *noahnung*
Kann auch einfach eine Frage der verfügbaren 3D-Packaging-Kapazität sein, wenn man den Zeitpunkt der MI300-Prognose-Anhebung um 1,5 Mrd. mit ein bezieht. Und die APUs für Mobile werden zusätzlich gepusht, als monolithische Designs.
 
Auf jeden Fall wird das auch ein ganz schöner Brummer. Wenn ich von meiner APU ausgehe braucht die bei 3.1 GHz min. 4 Watt pro CU.

144 CU brauchen dann schon 567 Watt, bei 3 Watt im Optimum immer noch 432 Watt. Bei den Karten wird es wehr viel Spielraum geben.
 
96CU bei 464W schaffen ~2,9Ghz Shader. Das sind 4,83W pro CU. Bei einer Verbesserung von 30-40% kämen wir auf 4,83 x (0,6 bis 0,7) ~ 2,9W bis 3,34W pro CU.
Bei 144CU: 417W bis 487W.
Bei 128CU: 371W bis 433W.

Alles im Bereich des Möglichen. Mit internen uArch-Verbesserungen hoffe ich, dass AMD einen High-End Gegner gegen BW102 192SM bringt und einen besseren Mittelklasse Chip.
 
Ich denke die theoretischen TFLOPs je CU je GHz sind doch immer gleich geblieben. Es kann nur durch bessere Auslastung oder durch geringere Genauigkeit im Gamecode die Leistung je CU je GHz verbessert werden. 30% oder mehr halte ich da für ausgeschlossen.

Was RDNA4 eventuell leisten könnte wäre eine Vervielfachung (2x) der BVH-Berechnungen für RT je CU. Nur hier sind deutliche Sprünge zu erwarten. Ein weiteres Feld wäre die Speicheranbindung für hohe Auflösungen. Wenn AMD beim IF-Cache deutlich zulegen würde, z.B. 192MB für 4k-Auflösung, dann könnte die Auslastung bei den grossen Rendertargets hoch gehalten werden. Auch das könnte helfen, der Vergleich zu Lovelaces extrem grossen L2 Cache zeigt das ebenso auf. Deren schneller Cache in niedrigerer Hierarchie verhilft allerdings auch bei kleineren Auflösungen zu hohen FPS-Zahlen.
 
Ich habe von irgendwo noch eine Aussage in Erinnerung das sich die Leistungsverbesserungen an sich bei RDNA4 eher in Grenzen halten werden und erst mit dessen Nachfolger kommen. Mit viel mehr als einen Leistungsgewinn durch mehr Takt und CUs rechne ich also nicht.
Sollte RDNA4 auch das erste Multichip Design sein bei dem eine große GPU aus mehreren kleineren GPUs zusammengesetzt wird dann dürfte das auch eine mehr als ausreichende Herausforderung für die neue Generation sein.
 
Man müsste auch einmal in Kontext sehen was AMD bei RDNA3 verändert hatte. Ähnliche Weiterentwicklung wäre doch erwartbar, v. a. auch was die Linux-Patches bereits andeuten. Die CUs machen weiterhin SIMD oder Matrix-Ops, aber es wird mehr Flags bzw. Bits geben die helfen bestimmte Zustände zu schalten und effizienter abzuarbeiten, neue Ops kommen hinzu die ein Compiler in Edge-Cases besser ausnutzen kann. Den L1-Cache zwischen WGPs innerhalb der ShaderEngine besser lesbar zu machen wird den L2 entlasten und das HW-Scheduling verbessern. Weniger Stalls einzelner Threads aber keine Sprünge in Peak-Performance.

Zur generellen Erwartung der Performance ist auch ein Blick auf die aktuelle Konsolengeneration hilfreich. Wir sind mitten in deren Lebenszyklus und mehr Leistung wird in Spielen nur für Gimmiks und höhere Auflösung (zeitlich od. orthogonal) verwendet, bisweilen Marketing-Leuchtturmprojekte.

Wenn man mit N44 als kleinste RDNA4 dGPU mindestens auf Konsolenniveau kommen will müsste das mit 32CUs bzw. 16WGPs für den Salvage-Chip (28CU) rd. 3.4GHz erreichen. Das Ziel müsste doch sein genau dieses "gut genug" so günstig wie möglich anbieten zu können. Das deckt sich mit den aktuellen Gerüchten.

Falls N48 tatsächlich die simple Verdoppelung darstellt wäre die Leistung in 4k entsprechend erwartbar. Also wenn Spieletitel auf Konsole und Einsteiger-GPU sonst für 30 oder 60 FPS in 4k ausgelegt sind erreicht (nach Milchmädchen) man mit dem grossen Chip grob die doppelte Leistung. Es dürfte nicht hinter einem Konsolen-Refresh Chip zurückbleiben. Das sollte doch passen.
 
Der Schwerpunkt dürfte bei RDNA3 auf dem Chiplet Design des ausgelagerten Speichercontrollers/Infinity Cache gelegen haben und beim Nachfolger deutet es sich an das wie bei der ersten Zen Generation eine große GPU aus mehreren kleineren zusammengesetzt werden kann, was bedeutet das zusätzlich auch die Shaderblöcke aufgeteilt und wieder auf einem Chip Träger per externen Interface gekoppelt werden müßten.
Das wäre letztendlich nur ein Schritt weiter aber dürfte einen erheblichen Umbau in den Shadern zur Folge haben. Tiefgreifende Verbesserungen bei der GPU Performance erwarte ich deshalb erst bei dessen Nachfolger weil man sonst zu viele Baustellen und damit potentielle Fehlerquellen auf einmal aufmacht.
 
N48-GCD ist mit 64CU doch gut spekuliert für die Mittelklassekäufer bei 500 - 600€. Der 220qmm Chip samt 64CU in N3 oder N4P Fertigung ist die Frage? Wahrscheinlich ist N4P für 2024 und für N3 ab 2025. Das sind zwei Jahre Stillstand bei der Leistung, wenn AMD keine 2XGCD Version bringt.

Der N48 allein klingt nicht sonderlich beeindruckend, aber 2er und 3er Konfiguration und AMD ist wieder oben.

Ist die Frage was günstiger geht für die Fertigung. 2 X 220qmm GCD oder 440qmm Chip.

Beim 304,35qmm N31-GCD hat AMD den Chip vierfach gesalvaged:
96CU / 84CU / 80CU / 72CU / 70CU.

Um die Ausbeute zu erhöhen, können Sie die 64CU auch vier Salvages erzeugen, wenn die uArch ausreichend hoch taktet auf ~3,7 - 3,8 Ghz.
N48 solo käme bei 3,7 - 3,8 Ghz beim OC-Taktraten auf ~60,60 - 62,25 Tflops fp32. Das riecht dann nach 96CU 7900XTX-Ersatz ~ 61,44 Tflops fp32. Von 96CU@2,5Ghz auf 64CU@3,8Ghz gäbe es keine Leistungsverluse, aber dafür Reduktion der CUs um ein Drittel ~ - 33,33%. Dafür muss man die Logik entsprechend dichter packen.

Hier stellt sich die Frage um welchen Faktor sich die reinen "CUs an sich" von 5nm auf N4P packen lassen samt Taktverbesserungen und wieviel Transistoren pro qmm es sind.

Auch gut möglich, dass AMD den command-Prozessor innerhalb des GCDs umbaut und "Zen1-Taktraten" von >4Ghz CP erreicht und ~3,6Ghz bei den Shadern. Das wären theoretisch maximal ~4,1Ghz CP bei ~ 67,17 Tflops fp32.

Also N48@4,1Ghz / 3,6Ghz leicht schneller als die 7900XTX@2,5Ghz / 2,3Ghz ohne uArch-Verbesserungen, außer Takt-Verbesserungen.

Im optimalen Fall könnte N48@3,8 - 4,1Ghz @ 220qmm N4P? alle N31 @ 530qmm ersetzen.

Mal schauen, ob die RDNA4 uArch auch wirklich dauerhaft im Bereich 3,5 - 4,0Ghz takten kann. Für AMD wäre das natürlich krass, weil der shrink von 530qmm auf 220qmm gigantisch ist, ohne dass Anwender es merken (7900XTX 24GB -> 8700XT 16GB).

Eine Dual-GCD Konfiguration müsste AMD "niedriger" takten, um den Verbrauch bei 600W , PCIe5, 12Pin Stecker, zu limitieren.

GB202 wird bei 192SM? spekuliert. Ich kann mir nicht vorstellen, dass AMD bei maximal "nur" 64CUs bleibt und theoretisch mehr oder einer GPU dann im Midrange (wie zu "Polaris 36CU" oder "RDNA1-40CU" Zeiten).
 
Zurück
Oben Unten