AMD CDNA4 - Instinct MI350/MI355

vinacis_vivids

Admiral Special
★ Themenstarter ★
Mitglied seit
12.01.2004
Beiträge
1.602
Renomée
285
AMD CDNA4 Architektur


Chester Lam:

Deep Drive CDNA4 uArch

A 10.000 word explanation of CDNA4

Matrix Core Programming CDNA3 & CDNA4

AMD Instinct MI350 GPU

AMD Instinct MI355X

HBM 3D Stacked von Micron
HBM3E 36GB 12-high



Fließtext und technische Daten werden ergänzt.

CDNA4 ist die derzeit weltweit technisch fortschrittlichste Compute-Architektur. Auf dieser GPU sind alle fortschrittlichen Technologien für Machine Larning, High Performance Computing und Artificial intelligence eingebaut.

AMD Instinct MI350X GPU
288 GB HBM3E VRAM
8 TB/s Bandbreite
8182 bit Speicherinterface
256 MB Infinity Cache

Compute Units: 256 CU
Shader Prozessor: 16.384 SP
Matrix Cores: 1024
Prozessortakt: 2,2Ghz
Energieverbrauch: 1000 Watt


3366850-instinct-accelerator-mi350x-prod-front.webp

Der AMD MI350X besteht aus zwei I/O Mirror-Dies, die 128 HBM3E Speicherkanäle beinhalten sowie 256MB Infinity Cache. Sieben Infinity Links erlauben die Kommunikation mit bis zu sieben anderen MI350 mit einer Bandbreite von 153,6 GB/s und kommen auf insgesamt 1075 GB/s Bandbreite. Es wird in 6nm TSMC hergestellt um die GPU bezahlbar zu halten.
An den Speicherkanälen hängen acht HMB3E Stacks mit der Größe von 36GB pro Stack. Die MI350 GPU kommt allein somit auf 288GB VRAM und im 8er Verbund auf 2304GB VRAM. Die Speicherbandbreite beträgt sagenhafte 8 TB/s insgesamt.
Zum Vergleich hat die stärkste Gaming GPU von AMD, RX 7900 XTX gerade mal 24GB VRAM und 960 GB/s Bandbreite. Weniger als ein Zehntel VRAM und weniger als ein Achtel Bandbreite für die super GPU für zu Hause.

Chiplet-Architektur:
Das Kernstück bzw. die Kernstücke von CDNA4 sind die von AMD definierten XCD - Accelerator Complex Dies, welche im modernen TSMC 3NP Prozess hergestellt werden. Dies erlaubt AMD die Logik von CDNA4 zu schrumpfen, somit Ressourcen zu sparen und im Vergleich zu 5nm mehr Logik auf die gleiche Fläche zu packen.
Auf jedem XCD sind 32 Compute Units aktiviert von 36 physisch vorhandenen um die Ausbeute zu verbessern. Die Compute Units sind in vier Arrays eingeordnet, wobei jedes Array acht CU aktiviert hat von insgesamt neun.
Acht XCDs sitzen zentral zusammen auf der MI350 GPU und geben mit ~2,2Ghz Takt die Compute Geschwindigkeit vor.

Chiplet__Package-2dee120194f60e9a.jpeg

Der AMD MI350X kommt insgesamt auf 256 Compute Units und insgesamt 144 Tflops ein einfacher Präzision, fp32 und ~ 72 Tflops bei doppelter Präzision, fp64. Im HPC, high performance computing ist der MI350X die stärkste GPU der Welt:

256 Flops fp32 X 256 CU X 2200 MHz ~ 144 Tflops fp32
128 Flop fp64 X 256 CU X 2200 MHz ~ 72 Tflops fp64

Auch bei geringerer Präzision für Zwecke des Machine Learning und Artificial intelligence ist der MI350X weltspitze.

Revolutionärer Chiplet-Aufbau des MI350X:
Screenshot_20251014_224215_com.google.android.apps.docs.jpg

 
Zuletzt bearbeitet:
Zurück
Oben Unten