AMD XDNA - Ryzen AI

Die Hölle friert zu: AMD bringt einen Compiler​

für AI als Open Source ...​


...allerdings handelt es sich bei Peano LLVM um ein Xilinx-Projekt und es ist deshalb vielleicht nicht mehr ganz so revolutionär.

PCMasters.de hat einen wie ich finde sehr guten Artikel dazu:

und natürlich auch Phonronix

Stephen Neuendorffer von Xlinx verweist darauf, dass der Compiler nur für einzelne Cores im Array mit LLVM compilieren kann. Für das gesamte NPU Array braucht es dann MLIR-AIE. Den Link hat er selbst aber falsch gesetzt.
 
Zuletzt bearbeitet:
Bei TechPowerUp glaubt man bei AMD einen strategischen Wandel in Richtung Software-Unternehmen zu erkennen.
Es soll von AMD-Vertretern erklärt worden sein, dass für Ryzen AI und die Instinct Serie im KI-Einsatz ein Kulturwandel bei AMD stattfinden soll um in den nächsten 3-5 Jahren auch im Bereich Software auf die Kunden zuzugehen und das Angebot und Image von AMD zu verändern.

Die Beschreibungen erinnern an die frühen Jahre der Zen-Gerenartionen. Gerade die EPYC-Sparte hatte über das Top-Management regelmässig betont, dass man in der Entwicklung genau den Kunden (gemeint waren wohl Hyperscaler) zugehört hat um die Hardware weiterzuentwickeln.
In den künftigen Softwareangeboten will man nun den grossen AI-Playern mit kombinierten Software-Hardware-Lösungen entgegenkommen.
They are now talking to the major software companies, like Microsoft, Adobe and OpenAI, to learn what their plans are and what they need from a future hardware generation.

Kommentar:
Mit dem Personalwachstum der letzten Jahre hat sich das Engagement für Software bereits deutlich gesteigert. Es bleibt ein Moving-Target, es braucht ein ständiges Engagement. Was fehlt ist die durchgängige Sichtbarkeit und Orientierung zu angebotenen Lösungen genaso wie die zuverlässige Verfügbarkeit in breitem Support für die angebotene Hardware. Es muss aus Sicht eines Entwicklers viel einfacher werden die eigenen Projekte auf AMD-Hardware anzupassen. Es fehlt nach wie vor eine klare Linie bei GPUopen oder im Marketing rund um Radeon-Features und den Software-Partnern im Gaming. Ob das mit AI dann später auch für AMD insgesamt besser klappt wird sich zeigen.
[automerge]1720636469[/automerge]

passend dazu die News zur übernahme von Silo AI
 
Zuletzt bearbeitet:
Ich denke eher weniger das es darum geht die Hardware nach den Anfürderungen der Software zu entwickeln sondern eher die Schnittstellen für den Zugriff der Software auf die Hardware zu liefern und sich mehr um die Optimierung der Software auf die Hardware zu konzentrieren, also genau das womit die Konkurrenz ihre Hardware puscht.
Bleibt nur zu hoffen das sie dies nicht ebenfalls nutzen um die Konkurrenz künstlich zu behindern um sich selbst einen künstlichen Vorteil zu verschaffen.
 

XDNA™ Architecture and Programming Model​

 
Zuletzt bearbeitet:
Kernel-Driver für XDNA sollte helfen den/die Coprozessoren populär zu machen. Allerdings stehen bei Puristen ggf. die notwendigen Firmware-Binaries für die einzelnen Cores im Weg. Ich bin gespannt ob und wie bald eine Art MESA für NPUs entsteht. Die Ansätze von Intel und AMD scheinen doch arg unterschiedlich und am Ende wollen für AI-Tasks auch GPU und CPU mitverwendet werden können.
 
Das ist ein interessanter Gedankengang. Dass diese Art von Treiber grundsätzlich im "accel"-Subsystem des Kernels beheimatet sind bzw sein werden, ergibt ja auf jeden Fall Sinn. Ist das nicht ursprünglich auch von Intel/Habana Labs eingebracht worden? Wie man daraus einen kompletten Softwarestack macht, bleibt definitiv spannend. Wobei es vermutlich auch nicht "schlimm" wäre, wenn die Hersteller alle unterschiedliche Ansätze verfolgen würden.

Am Ende ist es vielleicht eher eine strategische denn eine technische Entscheidung. Gegen wen muss man sich positionieren, um Erfolg zu haben? Ist es eher Intel vs. AMD oder x86 vs. ARM?
 
Aus Hot Chips 2024 eine XDNA2 Folie aus dem Vortrag zu Zen5 und StrixPoint.
xdna2.png

Eine gute Übersicht über die AMD/Xilinx basierte AI-Lösungen gab es in der Hot Chips 2024 Session 5 durch Tomai Knopp AMD.
XDNA2 ist eine Variante der auch in Versal verwendeten AI Engines für maschinelles lernen, AIE-ML v2. Es ist die zweite Generation der AIE-ML Architektur bzw. die dritte AI Architektur von AMD/Xilinx überhaupt.
 
Zuletzt bearbeitet:
Zuletzt bearbeitet:
Alveo V70 (basierend auf Versal VC2802) wurde ohne Nachfolger eingestellt.
Products Affected
The products affected include all standard part numbers. Any associated SCDs are also affected.
Table 1: Alveo V70 Accelerator Cards Affected
Part Number Replacement Part
A-V70-P16G-PQ-G No direct replacement
A-V70-P16G-PQG-206 No direct replacement

Key Dates and Ordering Information
Final orders (LTB) for Alveo V70 cards will be accepted until May 24, 2025, subject to material availability.
• An order remaining open on or after May 24, 2025, will be deemed Non-Cancellable, Non-Returnable (NCNR).
Final deliveries (LTS) for Alveo V70 cards must occur on or before August 24, 2025.
• Return Material Authorizations (RMA) for replacement devices due to quality issues will be accepted until November 24, 2025.
 
Zuletzt bearbeitet:
ja, den Blog hatte ich schon zu Amuse zitiert.

Mit BF16 hat AMD eine Lösung den RAM-Verbrauch trotz guter Inferencing-Qualität niedrig zu halten. Man darf gespannt sein wie die kommenden XDNAx Generationen bzw. Versal AI-ML Chips sich weiterentwickeln.
 
Fundstück aus Jul. 2024, paar XDNA2 NPU Folien auf der 2ten Seite

Man sollte die Info aus dem HotChips 24 Vortrag zur Versal-Engine im Hinterkopf behalten.
XDNA2 und Ryzen AI-300 haben die gleiche HW-Engine, beide unterstützen das von Microsoft/Meta entwickelte MX9 und MX6 als spezifische Block Floating Point Datentypen, während AVX10.2 die Varianten E5M2 and E4M3 unterstützen soll.

Mikroexponenten (MX) Datentypen unterstützen flexible Quantisierungen mit kleinen Exponenten. Die Zahl in der Bezeichnung gibt die durchschnittliche Bitlänge an. Während MX9 mit FP32 vergleichbare Ergebnisse erzielt erhält man mit MX6 zu FP8 vergleichbare Ergebnisse, jeweils mit geringerem Speicher- und Bandbreitenbedarf. https://arxiv.org/pdf/2302.08007
 
Zuletzt bearbeitet:
Die Frage NPU vs. GPU bleibt ungelöst. Es scheint dass auch weiterhin AMD mit seinen Partnern keine eindeutige Strategie für KI-Beschleuniger hat.

Vielleicht könnte sich zumindest das Coding-Modell etwas annähern.
 
PS6-iGPU hat schon sehr viele CUs, vermutlich 54CU mit moderner RDNA5 uArch, so dass die NPU für kleinere Datenquants nicht mehr unbedingt gebraucht werden. Die RDNA5 CUs können kleine Datenquants (fp8, int8, fp6, int6, fp4, int4) durch die WMMA Struktur.

Die NPU mit XDNA2 uArch halte ich bei mobilen SoCs für sinnvoll bzw. sinnvoller, also für Notebooks, Handhelds, Tablets und Smartfones. Da hilft die Energieeinsparung mehr als bei stationärer Konsole oder dGPU am Desktop.

Im mobilen Bereich ist die Einsparung von Daten durch kleinere quantisierte Modelle noch interessanter, weil dadurch auch Kosten gespart werden.

Andererseits kann AMD optional die NPU auch in AM5 CPUs (APUs) mit wenig CUs (2-16) einbauen um die Leistungsfähigkeit in ONNX, LLM usw. insbesondere für CNNs und Transformer zu verbessern. Das ginge dann so Richtung "AI-PC" im Sinne von Jack Huynh.

Amuse und LM-Studio stehen ja heute schon Parade dafür.

Was Spieler angeht, wird FSR4.5 oder FSR5 wahrscheinlich die XDNA2 NPU erst nutzen können. Hoffentlich dann schon mit fp6 / int6 mit kleineren CNNs oder Transformers.
 
Das ist ein interessanter Gedankengang. Dass diese Art von Treiber grundsätzlich im "accel"-Subsystem des Kernels beheimatet sind bzw sein werden, ergibt ja auf jeden Fall Sinn.

Da habe ich dann über XDC2025 das hier gefunden - NPU Treiber in Mesa, Anfänge schon 2023.

Er hat neue Treiber für Rockchip SoCs und ARM Ethos bestätigt, in 2026 H1 und H2 soll jeweils eine weitere Architektur folgen.
 
Zuletzt bearbeitet:
Die Frage NPU vs. GPU bleibt ungelöst. Es scheint dass auch weiterhin AMD mit seinen Partnern keine eindeutige Strategie für KI-Beschleuniger hat.
Naja, der Semicustom für Sonys Konsole ist ein schlechtes Beispiel für AMDs Strategie. Die stellen sich zusammen was sie wollen aus dem IP-Baukasten, dafür ist ja Semicustom da.
 
Zurück
Oben Unten