Du verwendest einen veralteten Browser. Es ist möglich, dass diese oder andere Websites nicht korrekt angezeigt werden. Du solltest ein Upgrade durchführen oder ein alternativer Browser verwenden.
The second big machine learning accelerator talk of the afternoon belongs to AMD. The company’s chip architects are at this year’s show to tell the audience all about the CDNA 4 architecture, which is powering AMD’s new MI350 family of accelerators. Like it’s MI300 predecessor, AMD is using 3D...
In this blog post, we walk through how to use Matrix Cores in HIP kernels, with a focus on low-precision data types such as FP16, FP8, and FP4, as well as the new family of Matrix Core instructions with exponent block scaling introduced in the AMD CDNA™4 architecture. Through code examples and...
CDNA4 ist die derzeit weltweit technisch fortschrittlichste Compute-Architektur. Auf dieser GPU sind alle fortschrittlichen Technologien für Machine Larning, High Performance Computing und Artificial intelligence eingebaut.
Der AMD MI350X besteht aus zwei I/O Mirror-Dies, die 128 HBM3E Speicherkanäle beinhalten sowie 256MB Infinity Cache. Sieben Infinity Links erlauben die Kommunikation mit bis zu sieben anderen MI350 mit einer Bandbreite von 153,6 GB/s und kommen auf insgesamt 1075 GB/s Bandbreite. Es wird in 6nm TSMC hergestellt um die GPU bezahlbar zu halten.
An den Speicherkanälen hängen acht HMB3E Stacks mit der Größe von 36GB pro Stack. Die MI350 GPU kommt allein somit auf 288GB VRAM und im 8er Verbund auf 2304GB VRAM. Die Speicherbandbreite beträgt sagenhafte 8 TB/s insgesamt.
Zum Vergleich hat die stärkste Gaming GPU von AMD, RX 7900 XTX gerade mal 24GB VRAM und 960 GB/s Bandbreite. Weniger als ein Zehntel VRAM und weniger als ein Achtel Bandbreite für die super GPU für zu Hause.
Chiplet-Architektur:
Das Kernstück bzw. die Kernstücke von CDNA4 sind die von AMD definierten XCD - Accelerator Complex Dies, welche im modernen TSMC 3NP Prozess hergestellt werden. Dies erlaubt AMD die Logik von CDNA4 zu schrumpfen, somit Ressourcen zu sparen und im Vergleich zu 5nm mehr Logik auf die gleiche Fläche zu packen.
Auf jedem XCD sind 32 Compute Units aktiviert von 36 physisch vorhandenen um die Ausbeute zu verbessern. Die Compute Units sind in vier Arrays eingeordnet, wobei jedes Array acht CU aktiviert hat von insgesamt neun.
Acht XCDs sitzen zentral zusammen auf der MI350 GPU und geben mit ~2,2Ghz Takt die Compute Geschwindigkeit vor.
Der AMD MI350X kommt insgesamt auf 256 Compute Units und insgesamt 144 Tflops ein einfacher Präzision, fp32 und ~ 72 Tflops bei doppelter Präzision, fp64. Im HPC, high performance computing ist der MI350X die stärkste GPU der Welt:
256 Flops fp32 X 256 CU X 2200 MHz ~ 144 Tflops fp32
128 Flop fp64 X 256 CU X 2200 MHz ~ 72 Tflops fp64
Auch bei geringerer Präzision für Zwecke des Machine Learning und Artificial intelligence ist der MI350X weltspitze.
"An AMD Instinct MI355X GPU offers up to 10 petaFLOPS (MXFP4/MXFP6) for both training and inference. An 8x GPU MI355X platform scales this performance to up to 80 petaFLOPS (MXFP4/MXFP6), with up to 2.3 TB of HBM3E memory and 64 TB/s of memory bandwidth for high-capacity, high-bandwidth workloads."