AMD RDNA 4 - 144CU, 48GB VRAM, 3nm + 4nm

MLID hat eigene Infos zu den RDNA4 Entwicklungen recherchiert...
RNDA4 ist wie RDNA1 oder Polaris - Tweet von Leaker Kepler bestätigt
RDNA1 mit Wechsel auf RDNA2 hätte gut funktioniert, evtl. mit RDNA4 auf RDNA5 wiederholen
RDNA4 ist kein grosser Leistungssprung wie ursprünglich geplant, Fokus aber auf Raytracing, Geometrie und Effizienz (also nicht Pixelrate >4k, peak FPS)
N41 hat Probleme die bei RDNA5 nicht auftreten, Ressourcen zugunsten RDNA5 verschoben.
N41 wird weiterentwickelt und könnte dennoch kommen sofern RDNA5 problematisch wird aber N41 gefixt werden kann
RDNA4 Lauch Window Q3-2024

Er spekuliert, dass mit einem schneller entwickeltem RDNA5 High End AMD in der übernächsten Gen vor den Start der Nvidia Generationen kommen könnte, RDNA3.5 Strix Point für Q2-2024, aber Strix Halo auch nur Q3-2024, ebenso wie PS5pro.
FSR3 Launch Date wird spätestens in Q4-2023 sein, eventuell "schon" mit dem Start der N32 GPUs.
 
Zuletzt bearbeitet:
MLID legt im aktuellen "Loose Ends" nach mit der Information dass N41 im Design gut ist, aber die Chiplet-Implementierung in der Fertigung Schwierigkeiten macht. Sobald das gelöst ist, ist es auch für Nachfolgegerenrationen gelöst....

Also war mehr als nur ein Upgrade der single GCD geplant, ich vermute mGCDs.
 
FSR3 Launch Date wird spätestens in Q4-2023 sein, eventuell "schon" mit dem Start der N32 GPUs.

Das ist etwas ernüchternd. Weil faktisch kommt FSR3 dann ein Jahr nach Einführung der Hardware.
AMD hat zwar nie von was anderem gesprochen als 2023, aber wenn das noch nach N32 kommen sollte.

Irgendwie ist zu vermuten, dass AMD alle Resourcen in Richtung ROCm bzw AI geschoben hat.
AMD HYPR-RX ist ja mittlerweile auch 2 Monate verspätet und mein genereller Eindruck vom aktuellen Zustand der Entwicklung beim Radeon Treiber ist kein guter.
 
Irgendwie ist zu vermuten, dass AMD alle Resourcen in Richtung ROCm bzw AI geschoben hat.
AMD HYPR-RX ist ja mittlerweile auch 2 Monate verspätet und mein genereller Eindruck vom aktuellen Zustand der Entwicklung beim Radeon Treiber ist kein guter.
Ich nehme an es ist ein Mix aus vielen Faktoren.

Zum einen hat RDNA3 Probleme in SW kompensieren müssen und war dennoch nicht performant wie geplant. Dann müssen die Überzeiten von dem Post-Launch abgebaut werden.
Der massive Personalzuwachs muss angelernt bzw. integriert werden, Tems werden neu zusammengesetzt, nicht jeder langjährige Mitarbeiter taugt zum Teamleader, etc. und Ergebnisse brauchen erst einmal eine Rückkopplung zur Koordination und Ausrichtung.

Und dann ist der strategische Fokus - wie Du schreibst - ganz bestimmt in AI mit dem Start der MI300 Serie. Dieser Hype-Zyklus muss auf der Welle mitgeschwommen werden soll er nicht an AMD vorbei gehen. Dann ist es ganz verständlich wenn im Zweifel einzelne Experten umdispositioniert werden um ein komplettes Softwareökosystem mit der Hardware anbieten zu können. Wäre mir persönlich auch lieber AMD schafft es hier eine echte Alternative zu Nvidia aufzubauen. Intel ist da für den Moment wieder aussen vor. Die Schwierigkeit bei AMD war aber schon immer Software als Afterthought mitzuliefern und nicht mit dem Produktlaunch marktreif aktualisiert zu haben.

Im Gaming erwarte ich dabei keine grossen Technologiesprünge für die nächsten 24 Monate, hier ist doch eher eine Konsolidierungsphase in der die Must-Haves gesichert werden. Dennoch muss auch dort der PS5-Pro Start begleitet werden. Im Raytracing werden noch Alternativen ausprobiert und Microsoft könnte eine neue DXR Version nachlegen.
Bei AMD wird FSR3 voraussichtlich weiterhin kein DeepLearning einsetzen. Aber eigentlich ist das Upscaling-Thema durch. Die Leistung der künftig zu vermarktenden GPUs übertrifft die Anforderungen in der Regel. Da wird es dann eine "besser als nativ" BS-Diskussion geben.
Enttäuscht bin ich, dass trotz der Anstrengungen von Microsoft und Sony auf den Konsolen das Thema Audio nicht mehr Bedeutung bekommen hat. Der Mainstream ist ignorant was das anbelangt. Ich hätte mich hingegen über ein Revival von TrueAudio auf den kleinen iGPUs für korrekte räumliche Vertonung gefreut.
 
MLID hat im Video nachgelegt mit einer Grafik des abgekündigten Navi4C, das extrem komplex aufgebaut ist/war. (gefunden via Videocardz)
 
Ich bin etwas überrascht über 3 AIDs, eigentlich dachte ich ein AID kann die Compute-Dies vollständig anbinden. So sind schon die Chiplets mit einem AID ausgestattet, die dann auf dem Substrat auch noch angebunden sind. Möglicherweise hat das nicht so geklappt wie man es sich vorgestellt hat.
Macht aber Sinn das AID-Packaging auf Chiplet-Ebene durchzuführen, wegen den Kosten/Yield.
 
Ich bin da wegen dem Layout mit den kleinen Shader Engines auch überrascht gewesen. Nach der Grafik wäre das je SE mit 8 DCUs bzw. 16 CUs ein Chiplet. Das ist sehr klein, je nach Umfang des L1 und Ausbau von RT und AI.
Ich nehme an die Leaker der maximalen 144 CU Variante hatten das Bild gekannt und die aktuellen RDNA3 SE als 16er CUs x3 Chiplets x3 AIDs multipliziert.
Diese ChipsOnWafer-Lateral Brücken empfinde ich als schwierig, wohl wären diese für niedriege Latenzen im L1 Abgleich notwendig. Das Bild zeigt nicht wo L2 und Scheduler bzw. ACE Einheiten wären.

Meine Erwartung war ursprünglich AMD lagert nur die Einheiten aus, die nach und am L2 gebunden sind (L2, Geometrie, G-Command, HWS, DMA) um alles was am L1 ist in GCD Monolithen zu belassen (CUs, RB, L1 mit Kohärenz, Global Data Share Konstanten). Das Ganze in z.B. 40, 80, 120 CU Varianten aufgelegt wäre ein Design gewesen, das nur in der Menge der SE sich unterschieden hätte. Auch hätte ich erwartet, dass man je SE eben wieder auf 10 DCUs bzw. 20 CUs hoch geht, wie diese in RDNA2 zu sehen waren. Einfach weil wie Eingangs erwähnt ein Chiplet mit nur 32 oder gar 16 CUs aus der Grafik in 3nm doch viel zu klein wäre, kaum mehr Vorteile im Yield brächte. Ein 16 CU Chiplet allein würde man doch nicht haben wollen, zu teuer mit dem Drumherum für die gebotene Leistung.
 
Auf dem N4C sieht man eine 3 X SE Konfiguration von einer Seite.
Auf jedem SE sitzen 16CU, also in einer Reihe maximal 48 CUs
Drei dieser 3 X SE Reihe ergeben 3 X 3 X SE = 9 SE X 16CU = 144 CU.

Ich könnte mir vorstellen, dass die Umstellung des Command Prozessors, Geometry Prozessor, HWS, DMA usw. doch größere Probleme verursacht die 144 CU auch mit genügend Tasks auszulasten. Bei fp32-compute WMMA fallen dann doch größere Datenmengen an, die dann auch einen größeren (teureren) Cache brauchen. Zumal AMD bei der BVH-Beschleunigung (Baumstruktur) nun andere Wege gehen will als wie bei RDNA2.

Möglicherweise kommt auch die Order von oben (Lisa), erstmal die Entwicklung /Ressourcen beim teuren fp32 zurückzustellen und mehr auf bf16/ fp16, int8 und int4 AI-Cores (WMMA) umzustellen. auch für die Gaming-Sparte (und nicht nur HPC).
 
@

vinacis_vivids


Ficken, hat nicht Zwangsläufig was mit, Sex zu tun...

Trillionen sind über Milliarden...
 
MLID mit weiteren Leaks/Infos zu RDNA4 inkl. Performanceeinschätzung zu Navi 43:
 
MLID mit weiteren Leaks/Infos zu RDNA4 inkl. Performanceeinschätzung zu Navi 43:
Er schätzt die Möglichkeiten ein, alles sehr vage…
Die theoretische FLOP Leistung einer CU pro Takt ist letztlich sehr konstant seit GCN. Die Auslastung durch den Gamecode und Treiber durch verbessertes Design zu unterstützen geht vor allem über Cache und reduzierte Latenzen bei Shadercode. Nur bei RT erwarte ich noch Sprünge durch neue ISA Features. Bei UE5 fehlen noch genügend Messdaten um die nächsten Gens einschätzen zu können. Ich vermute der Gap zwischen Konsole und dGPU ging relativ zur theor. GPU Leistung erst mal wieder zurück.

Dass AMD mit RDNA4 hauptsächlich auf Laptop schielt und dGPU erst mit RDNA5 wieder in den Fokus nimmt wäre durchaus ein Erklärungsansatz. Etwas für mehr Marktanteile dort und im Mainstream PC Gaming die Anteile halten.
 
N41 = 64WGP / 128CU - 8192SP (N41?)
Vermutlich die 4 X GCD Version mit jeweils 2048SP pro GCD.
-> gecancelt wegen fehlender 3nm Kapazität?

N42 = 48WGP / 96CU - 6144SP (N31XTX, N42?)
Vermutlich die 3 X GCD Version mit jeweils 2048SP pro GCD.
-> gecancelt wegen fehlender 3nm Kapazität ?

N43 = 32WGP / 64CU - 4096SP (Vega10, Fiji10 Struktur)
Fertigung: TSMC 4nm ?

N44 = 16WGP / 32CU - 2048SP (Antigua full, Polaris10 Salvage, Navi23 full, Navi33 full)
Fertigung: TSMC 4nm ?

Für die Masse reicht wohl ein Chip 100-200mm²

Die neuesten Gerüchte gehen von 180 WGP aus! Also 45WGP / 90CU pro GCD und Taktraten von 4,0Ghz für den Maximalausbau 8900XTX.

180 WGP = 360CU = 8900XTX ?
48 WGP = 96CU = 7900XTX

Erhöhung von +275% bei den CUs und bei einem Takt von 4,0Ghz käme man auf surrealistische Rechenleistung von:

256 Flop 32 pro Clk / 4,0Ghz Clk / 360CU ~ 368,640 Tflops fp32 dual-issue

Vergleich 7900XTX
256 Flop 32 pro Clk / 2,7Ghz Clk / 96CU ~ 66,355 Tflops fp32 dual-issue

An roher Erhöhung der Rechenleistung wären es +443,5% für den RDNA5 ? Top-Dog 180WGP ggü. N31XTX.
 
Erste Code-Patches für Navi 4 tauchen im LLVM-Compiler auf, mutmaßlich für Navi 44 und 48.

Man könnte daraus einen groben Zeitplan ableiten, denn der Ablauf wird ja immer ähnlich sein.
 
ich dachte das Zeitfenster steht schon fest mit Q3/2024.

Ich hoffe die Leaks sind falsch, der IF Cache sollte mit 192MB deutlich grösser werden um die Rendertargets in 4k aufzunehmen. Das würde viel weniger Optimierung im Shadercode bzw Treiberpatches für Spiele nötig machen.
 
Server, Destruktion Derby, we DDos the Single...
 
Zusammengefasst:
RDNA4 N48
32WGP = 64CU
48MB IF$
192bit SI
PCIe 5.0 X16

4096SP ~ also Vega64 und Fiji10 Struktur.
192bit SI ~ Das SI einer 7700XT
48MB IF$ ~ Das IF$ einer 7700XT

Taktraten geschätzt: ~3,0Ghz
Rechenleistung geschätzt N48: 3,0 X 4096 X 4 ~ 49,1 Tflops fp32 dual-issue

N48 könnte die 7900XT ersetzen, welche mit ~51,48 Tflops fp32 dual-issue in etwa die gleiche Rechenleistung hat. Durch PCIe 5.0, uArch Optimierung wegen RT und die Beschleunigung des IF$ könnte N48 leicht schneller sein als die 7900XT. Wird vermutlich als "Mid-Range" GPU im günstigen 4nm (5nm Derivat) gefertigt um die teure N31XT zu ersetzen.

Preislich macht die 7900XT sich gerade bei ~800€ , mit günstiger könnte AMD dann die 499-599 USD anpeilen für die neue 12GB Grafikkarte.
 
Ich denke man hat schon an der 7800XT vs. 6950XT gesehen wie AMD das angeht. In hohen Auflösungen kommt der kleinere IF Cache dann zu kurz bis nachoptimiert wurde wo möglich.
 
Zurück
Oben Unten