AMD CDNA4 Architektur
Hello you fine Internet folks,
chipsandcheese.com
Chester Lam:
CDNA 4 is AMD’s latest compute oriented GPU architecture, and represents a modest update over CDNA 3.
chipsandcheese.com
Deep Drive CDNA4 uArch
The second big machine learning accelerator talk of the afternoon belongs to AMD. The company’s chip architects are at this year’s show to tell the audience all about the CDNA 4 architecture, which is powering AMD’s new MI350 family of accelerators. Like it’s MI300 predecessor, AMD is using 3D...
www.servethehome.com
A 10.000 word explanation of CDNA4
Matrix Core Programming CDNA3 & CDNA4
In this blog post, we walk through how to use Matrix Cores in HIP kernels, with a focus on low-precision data types such as FP16, FP8, and FP4, as well as the new family of Matrix Core instructions with exponent block scaling introduced in the AMD CDNA™4 architecture. Through code examples and...
salykova.github.io
AMD Instinct MI350 GPU
AMD Instinct MI355X
HBM 3D Stacked von Micron
HBM3E 36GB 12-high
NVIDIA GB200 NVL72, AMD MI355X, Throughput Token per GPU, Latency Tok/s/user, Perf per Dollar, Tokens per Provisioned Megawatt, DeepSeek R1 670B, GPTOSS 120B, Llama3 70B
newsletter.semianalysis.com
www.phoronix.com
Fließtext und technische Daten werden ergänzt.
CDNA4 ist die derzeit weltweit technisch fortschrittlichste Compute-Architektur. Auf dieser GPU sind alle fortschrittlichen Technologien für Machine Larning, High Performance Computing und Artificial intelligence eingebaut.
AMD Instinct MI350X GPU
288 GB HBM3E VRAM
8 TB/s Bandbreite
8182 bit Speicherinterface
256 MB Infinity Cache
Compute Units: 256 CU
Shader Prozessor: 16.384 SP
Matrix Cores: 1024
Prozessortakt: 2,2Ghz
Energieverbrauch: 1000 Watt
Der AMD MI350X besteht aus zwei I/O Mirror-Dies, die 128 HBM3E Speicherkanäle beinhalten sowie 256MB Infinity Cache. Sieben Infinity Links erlauben die Kommunikation mit bis zu sieben anderen MI350 mit einer Bandbreite von 153,6 GB/s und kommen auf insgesamt 1075 GB/s Bandbreite. Es wird in 6nm TSMC hergestellt um die GPU bezahlbar zu halten.
An den Speicherkanälen hängen acht HMB3E Stacks mit der Größe von 36GB pro Stack. Die MI350 GPU kommt allein somit auf 288GB VRAM und im 8er Verbund auf 2304GB VRAM. Die Speicherbandbreite beträgt sagenhafte 8 TB/s insgesamt.
Zum Vergleich hat die stärkste Gaming GPU von AMD, RX 7900 XTX gerade mal 24GB VRAM und 960 GB/s Bandbreite. Weniger als ein Zehntel VRAM und weniger als ein Achtel Bandbreite für die super GPU für zu Hause.
Chiplet-Architektur:
Das Kernstück bzw. die Kernstücke von CDNA4 sind die von AMD definierten XCD - Accelerator Complex Dies, welche im modernen TSMC 3NP Prozess hergestellt werden. Dies erlaubt AMD die Logik von CDNA4 zu schrumpfen, somit Ressourcen zu sparen und im Vergleich zu 5nm mehr Logik auf die gleiche Fläche zu packen.
Auf jedem XCD sind 32 Compute Units aktiviert von 36 physisch vorhandenen um die Ausbeute zu verbessern. Die Compute Units sind in vier Arrays eingeordnet, wobei jedes Array acht CU aktiviert hat von insgesamt neun.
Acht XCDs sitzen zentral zusammen auf der MI350 GPU und geben mit ~2,2Ghz Takt die Compute Geschwindigkeit vor.
Der AMD MI350X kommt insgesamt auf 256 Compute Units und insgesamt 144 Tflops ein einfacher Präzision, fp32 und ~ 72 Tflops bei doppelter Präzision, fp64. Im HPC, high performance computing ist der MI350X die stärkste GPU der Welt:
256 Flops fp32 X 256 CU X 2200 MHz ~ 144 Tflops fp32
128 Flop fp64 X 256 CU X 2200 MHz ~ 72 Tflops fp64
Auch bei geringerer Präzision für Zwecke des Machine Learning und Artificial intelligence ist der MI350X weltspitze.
Revolutionärer Chiplet-Aufbau des MI350X: