AMD Halo - HighEnd-APUs (FP11, Strix Halo)

Und schade, dass AMD nicht mehr auf die Pauke haut. Staerkste iGPU ever usw.
Jetzt muessen die Teile in gute Produkte wandern, um zeigen zu koennen, was moeglich ist.

Gibt es da schon groessere Ankuendigungen?
Laptops?

Gruss,
TNT
 
Es mag zwar möglich sein einen V-Cache auf ein CPU-Chiplet bei Strix Halo hinzuzufügen, mit der fixen GPU-Einheit sehe ich dort allerdings kaum relevante Vorteile. Die aktuelle CPU sollte bereits bei den komplexen Gaming-Lasten die GPU immer auslasten können. Bei anderen Anwendungen kenne ich sonst keine die besonders von mehr L3-Cache profitieren, lediglich die Effizienz würde noch weiter gesteigert. Man könnte annehmen dass minim die Last vom SI genommen würde und die GPU davon profitieren könnte, aber dann wäre es doch noch besser einen LLC für die GPU zu vergrössern.

Wenn ich den Phawx Review richtig interpretiere hat man bei 24W TDP bereits nahezu die maximale Leistung des RAMs zur Verfügung. Die CPU skaliert noch sehr gut bis circa 37W TDP. Die GPU skaliert bei niedriger Auflösung stetig, gemächlicher ab circa 55W TDP, bei HD-Auflösung gibt es einen Knick schon bei circa 46W TDP.
Die CPU ist dabei erst ab 22W respektive 28W besser als Strix Point, mit GPU-Last tritt das bereits bei 20W TDP ein. Ein einzelner CPU-Core braucht auch 20W TDP für maximalen Takt.

Was man daraus ableiten kann ist, dass der Cache bei der CPU hilft eine Taktsteigerung im TDP Bereich von 24W bis 37W auszugleichen. Bei der GPU hilft der Cache den TDP Bereich von 24W bis 46W auszugleichen, wenn die Auflösung gering ist genügt der Cache auch für mehr Performance was aber zweifelhaft ist da man mobil eher nicht auf besonders hohe FPS geht sondern dann eher auf geringere TDP.
Man sieht dann in den anspruchsvolleren Game-Tests in Full-HD wie ein 390er mit weniger GPU-Cache in LLC und weniger CUs dann hinter dem 395+ zurück fällt. Um mit weniger Cache in der GPU bei L0/L1/L2/LLC die gleiche Bandbreite zu synthetisieren muss der einfach höher takten und braucht mehr TDP.

Summa summarum, die GPU könnte mit der Anzahl von CUs wohl noch wesentlich leistungsfähiger sein wenn die Bandbreite durch IF-Cache oder noch schnelleren RAM gesteigert würde. In der aktuellen Form - je komplexer die Shader und je höher die Auflösung beim Gaming, desto eher kann man unterhalb von 46W bis runter zu 24W TDP noch einen besten Kompromiss finden. Nur bei simplen Aufgaben für die GPU, die in den LLC passen, macht es Sinn höhere TDP anzustreben, ansonsten läuft man immer stärker in das Bandbreitenlimit des RAM. Ein Blick auf die minFPS beim Vergleich 390er vs 395+ bestätigt das ebenso.

PS: in der IF-Cache Analyse zum Start von RDNA2 wurde von AMD bereits eine skalierende Hitrate für HD-Gaming bis >128MB Cache gezeigt, abflachende Kurve ab ca. 80MB. Ein RNDA2 mit 40CUs hatte 96MB IF-Cache bekommen wo Strix Halo nur 80 32MB hat. Dabei brauchen modernere CUs und komplexe Shader nicht weniger sondern mehr Cache. AMD hat hier noch Luft nach oben, reduziert aber für die Kosten und vermutlich auch für mehr Takt nach unten, was dann wieder mehr Softwareoptimierung braucht.
 
Zuletzt bearbeitet:
Es mag zwar möglich sein einen V-Cache auf ein CPU-Chiplet bei Strix Halo hinzuzufügen, mit der fixen GPU-Einheit sehe ich dort allerdings kaum relevante Vorteile. Die aktuelle CPU sollte bereits bei den komplexen Gaming-Lasten die GPU immer auslasten können.
Dann würden die Spiele im CPU Limit nicht vom erweiterten Cache profitieren, was aber nicht der Fall ist. Das sie im GPU Limit kaum davon profitieren versteht sich ja von selbst. In welches der beiden Limits wie stark rein rutscht hängt wiederum primär von den Bildeinstellungen des Spiels ab.

Bei einem Produkt wie "Strix Halo" ist dies wiederum gleich doppelt relevant weil sich CPU und GPU das TDP Limit teilen müssen. Die Watt die bei der CPU durch den erweiterten Cache eingespart werden können kämen dann umgehend der GPU zu gute welche dadurch höher takten könnte.
 
Der 390 und 395 haben doch genau gleich viel GPU LLC, nämlich den 32MB MALL-Cache. Darüber hinaus natürlich auch das gleiche SI. Dass der 395 effizienter ist und in höhere TDP Klassen skaliert liegt zum einenen natürlich an den zusätzlichen GPU CUs. Gerade das zeigt doch, dass das Speichersubsystem der GPU kaum limitiert.

Bei sehr niedrigen TDPs (7-20W) sieht man aber vor allem, dass der 395 das deutlich bessere Chip-binning hat.
Dazu kommt, dass das zweite CPU CCD aus Effizienzgründen bei niedrigen TDPs lange ausbleibt. Dadurch hat man dann natürlich auch noch 8 vs 6 CPU Cores was der Effizienz leicht zugute kommen dürfte. Mehr Cache wäre für die Effizienz natürlich quasi immer besser.
 
Der 390 und 395 haben doch genau gleich viel GPU LLC, nämlich den 32MB MALL-Cache

Du hast natürlich recht. Da habe ich selbst die ganzen Specs im Anfangspost Mitte Januar mühsam korrigiert und dann doch nach so kurzer Zeit wieder durcheinander gebracht.
Der LLC der GPU ist also viel kleiner als ich beim schreiben des letzten Posts überlegt hatte. Die Schlüsse bleiben für mich die gleichen, wobei ich mich frage ob nun doch viel mehr der L3 der Zen-CPU das SI auch für die GPU entlasten hilft. Der Cache skaliert natürlich mit dem Takt der GPU. Hingegen der RAM hat eine relativ fixe Clockrate und wir nach der Analyse von Phawx nur zwischen 400MHz und 800MHz alternierend je nach TDP angepasst.
Sobald der IF-Cache neben dem Shader Code nicht mehr die Rendertargets vollständig für die Zwischenberechnungen abfangen kann und die relativ zur Leistung früher aus dem dann nicht mehr weiter skalierenden RAM gelesen werden müssen gibt es eben den Leistungsknick bei den HD-Auflösungen vs. der Taktskalierung. Bei den Min-FPS kann das schon früher auftauchen wenn eben in komplexen Situationen die Assets immer vorwiegend auch aus dem RAM gezogen werden müssen.....
 
Framework hat soeben für Strix Halo eine Reihe von Modulen für ein neues Desktop-System vorgestellt
 
Gefällt mir echt gut, preislich aber schon recht hoch gegriffen ... mal sehen wie es aussieht wenn die Dinger verfügbar sind und ob ich dann noch Bedarf habe :)
 
Gefällt mir echt gut, preislich aber schon recht hoch gegriffen
Same here. Aber mal abwarten, wie es sich entwickelt. Ich denke, dass da noch andere nachziehen werden in ein paar Monaten etc.
Aber schoene und erstaunlich schnelle Entwicklung an dieser Stelle.

Da sind einige doch recht angetan (Kommentare):

Gut so!

Gruss,
TNT
 
Zuletzt bearbeitet:
Jo, da hatte ich das auch zuerst gelesen ... schwanke aber zwischen dem 32GB und dem 64GB Modell ... weiß nicht ob der Aufpreis sich lohnt aber ich vermute eher nicht ... mal Testberichte abwarten :P
 
Der hohe Preis wird vermutlich auch dem Thema Nachhaltigkeit/Langlebigkeit geschuldet sein, dem sich Framewrok ja verschrieben hat...
 
Der hohe Preis wird vermutlich auch dem Thema Nachhaltigkeit/Langlebigkeit geschuldet sein,
Klar und ich haette eigentlich noch einen hoeheren Preis erwartet.
Es wird noch andere Produkte gegeben, aber gut, dass man sieht, dass das Potenzial der APU angenommen wird.

Nun braucht es mehr davon und vor allem lieferfaehige Notebooks.
Nicht, dass das Asus ROG Flow Z13 als Showcase allein bleibt.

Gruss,
TNT
 
 
MLID hat ein neues Leak-Video über künftige Zen CPUs/APUs generell herausgebracht.
Ich nehme die Infos daraus für Medusa Halo in den 1. Post.


Er geht davon aus dass AMD gegenüber Intel nachdoppeln will. Bei Halo denke ich aber auch dass AMD mit gleichwertiger Fertigung auch zu Apples M-Serie eine noch bessere Alternative gegenstellen möchte.
 
Zuletzt bearbeitet:
Mini PC mit Ryzen AI 395+ Max




40CU @ 3,0Ghz ~ 61,4 Tflops fp16 WMMA dense
Damit lässt sich das DeepSeek Distilled Modell mit 32 Billionen Parameter in voller Präzision betreiben bei ~82GB Modellgröße. Passend in 128GB V-RAM. Alles Kompakt zum Mitnehmen, das ist schon Wahnsinn.
Ab 1900 €UR / 2060 USD / 14999 CNY

Für das Oberklasse Distilled LLM mit 70b Parameter in bf16 sind ~181GB V-RAM nötig, also 192GB RAM, ob es davon schon Exemplare gibt und laufen?

Signiert von Lisa Su (AMD)


GMKtek ist wohl der Vorreiter für die riesen APU in 4nm.

Spekulationen für 2026:

Ryzen AI 495+
16C Zen 6 (max. 5,5Ghz)
48CU RDNA4.5 (max. 3,3Ghz)
96MB LLC (IF$/V-Cache)
TSMC N3E

Der Sprung von 40CU RDNA3.5 auf 48CU RDNA4.5 wäre im KI Bereich richtig fett.

~61,4 Tflops fp16 WMMA AI 395+ dense auf
1024 x 48 x 3300 ~ 162 Tflops fp16 WMMA dense
2048 x 48 x 3300 ~ 324 Tflops fp16 WMMA sparse

Für 2026 mit TSMC N3E wird es greifbar mit DeepSeek 70b distilled bf16 ~ 181GB. Dazu braucht man 192GB oder 256GB als Systemreserve. 75GB sind besser als 11GB Systembetrieb. Am besten Quad-Channel RAM für mehr Bandbreite beim V-RAM.
 
Zuletzt bearbeitet:

How low can you go?
  • Powergating deaktiviert ein CCD/CCX
  • RAM-Clock wird runtergefahren, die Clock-Domäne mit dem Controller hilft Energie zu sparen.
In der Praxis scheint ein Low-Power Device mit einem Strix Halo nur an der zu niedrigen Bandbreite zu scheitern, ansonsten wäre das Konzept in der Lage auch mit 7W oder 15W sehr viel mehr Leistung anzubieten. Auch so schafft man bereits Doppelte Performance eines ROG Ally.
Phawx geht davon aus, dass AMD sehr viel mehr Möglichkeiten hätte für Handhelds oder andere Geräteklassen optimierte "Halo" Designs anzubieten. Also mit doppelt so breiter Speicheranbindung vs. die üblichen Zen-APUs. Zen-Cores und RDNA/UDNA haben auch im aktuellen Halo-Konzept noch zu viel Leistung für Gaming angesichts der Speicherbandbreite.
 
Zuletzt bearbeitet:
 
Duell gegen die RTX4090:

Halo Blog - World's Fastest x86 Llama Run.png

Das genaue Modell ist "Llama 70b 3.1 Nemotron Q4 K M quantization" für LLM-Inference in LLM-Studio. 42,52 GB groß, passt also nicht mehr komplett auf single Consumer dGPUs (wie die RTX4090 24GB).

100 input tokens für die Messung der Performance in Token / s.

Token / s - Man kann das auch als "Schreibgeschwindigkeit" des gesamten LLM-Systems bezeichnen.
 
Zuletzt bearbeitet:
Zurück
Oben Unten