AMD - Zen 4 /4c - 5 nm/4 nm - Genoa, Bergamo, Siena, Raphael, Phoenix Point

Nur ist das ja von AMD bei der Vorstellung der RDNA3 als Usecase mit dem 7000er demonstriert worden. Das "A" steht für Accelerate:

AMD_RDNA3_56.png


Da spielt es eher keine Rolle ob das nur die verbauten FFUs der iGPU sind.
 
@sompe Du beziehst Dich auf die erste Inkarnation der APUs Llano - damit hat AMD auch das Kuerzel HSA mitgepraeg/gegruendet ('The future is fusion" Llano?) der Grafikteil von APUs sollte allgemeine Aufgaben (GPGPU) uebernehmen koennen - oder!? Das war damals der Fokus. So viel ist da leider nicht bei rum gekommen bzw. in der Breite angekommen. Heute spricht AMD bei den aktuellen APUs kaum noch davon.

Die Definition von APUs kommt nicht von mir also nicht eigenes und schon gar nicht erfunden (war auch zuvor schon von mir verlinkt).

RDNA2 verschliesst sich nicht GPGPU Aufgaben - auch wenn bei Zen4 der Nutzen oft gering ist - da dicke x86 Kerne bereitstehen; dennoch agiert die IGPU als quasi Coprozessor und kann die x86 Kerne entlasten. Die IGPU kann schon ein bisserl mehr als nur Pixel schubsen (siehe VCE).

Zen4 auf jeden Fall mehr CPU als APU
Aber gern koennen wir Zen4 als vorrangig bei CPUs im Alltagssprech belassen mit kleinen Anleihen bei einer APU/GPU (kann Grafik - manche bauen mit dieser Ausbaustufe der Grafik sogar Gaming Handhelds...und fuer Gaming Notebooks soll es fuer das Fenster schieben ebenfalls reichen -> Dragon Range Zen4 CPU im Notebook enevlope).

"Wenn Dragon Range der neue Name für Raphael-H ist, ist "RDNA3" auch Teil der Verwirrung, sprich RDNA2 wäre richtig."
Genau so ist es!

Gruss,
TNT
 
Wie sagte mein Prof so schön?
"Wikipedia ist keine Quelle!"
Und Recht hatte er.

Sieh es doch mal pragmatisch: AMD hat den Begriff APU geprägt. Sie werden ihn weiterhin so benutzen, wie sie ihn verstehen. Wenn wir jetzt was anderes darunter verstehen "wollen", machen wir uns nur selbst das Leben schwer. Dann gibt es noch mehr Verwechselungen wie gerade eben bei den "Chips mit einem Grafikteil" ;-).

Dass es abseits von den APUs auch noch weiteres "Coworking" zwischen CPU und Grafikkarte gibt, oder zwischen den UVDs auf Graka und CPU, stellt kein Problem für den Begriff APU dar. Auch nicht, wenn eine billige Chinabutze eine CPU für ein "Gaming-Handheld" missbraucht (so muss man es wohl nennen). Das ist dann Kundenverarschung, aber es ändert ja nichts am unterschiedlichen Einsatzgebiet von CPUs und APUs.

Was GPGPU betrifft, ist es zwar relativ ruhig, aber ich bin immer wieder überrascht, wenn ich lese, was da unter dem Radar so alles weiterentwickelt und verbessert wird. Vielleicht ist es heute einfach selbstverständlich und wird nicht mehr als "Verkaufsargument" beworben.
 
Zuletzt bearbeitet:
@TNT
Irrelevant, AMD hat den Begriff so eingeführt und ist meines Wissens nach auch der einzige Hersteller der ihn nutzt.
Was andere darunter verstehen wollen spielt dafür ganz einfach keine Rolle denn wir sind schließlich nich bei "wünsch dir was".
 
Bei AMD kann man sich da leider auch nicht immer sicher sein, weil sie zwischenzeitlich diesen Begriff gar nicht mehr so genutzt haben.

Wir werden etwas klüger sein, wenn zur CES die ersten Zen 4 Mobile CPUs vorgestellt werden.
 
Wir sollten das Thema belassen - Zen4 Desktop = CPU , Zen4 Notebook immer noch CPU.
Die Grenzen sind aber mit Zen4 stark verwischt, so dass man die Definition von APUs in ihrem urspruenglichen Sinne auch auf Zen4 anwenden kann.

Der Begriff APU wird von AMD selbst in den letzten Jahren weniger prominent genutzt so meine Wahrnehmung. In ein paar Jahren wird er vermutlich in der Kommunikation verschwunden sein - da alle CPUs Merkmale einer APU haben und es da nichts mehr zu unterscheiden gibt sondern eher nach Anwendungsbereich.

Bin gespannt wie AMD seine CPUs/APUs nennt, wenn noch mehr Acceleratoren Einzug halten...
Die kommende Super APU heisst schon mal Instinct...

TNT
 
@pipin
Na ja, von HSA hört man schon seit Jahren nichts mehr und scheint eher tot zu sein aber ich kann mich nicht erinnern das der Begriff "APU" irgendwann mal von ihnen umdefiniert wurde.
 
Wenn ich mich richtig erinnere, wurde AMD in einem Interview gefragt, ob Raphael jetzt APUs wären. Sie haben das verneint und gesagt, dass sie auch weiterhin große APUs produzieren, und sie begrifflich abgrenzen wollen. Es macht auch gerade für AMD keinen Sinn, so ein dickes Pfund einfach aufzugeben. Das wäre dumm.

Was Phoenix nochmal oben drauf legt, wird spannend.

HSA ist als Begriff tot, aber GPU-Computing lebt, vorangetrieben vor allem vom professionellen Sektor.
 
Zuletzt bearbeitet:
Wenn man es genau nimmt ist Zen4 nur die Bezeichnung der CPU Kerne. Diese kommen in CPUs und APUs zum Einsatz.

Und ob HSA tot ist werden wir sehen wenn die Details zu AMD Advantage kommen. Mal sehen was der AMD only Ansatz an Möglichkeiten bietet.
 
@pipin
Na ja, von HSA hört man schon seit Jahren nichts mehr und scheint eher tot zu sein aber ich kann mich nicht erinnern das der Begriff "APU" irgendwann mal von ihnen umdefiniert wurde.

Sie haben ihn ja nicht umdefiniert, sondern zwischenzeitlich einfach so gut wie gar nicht mehr benutzt.
 
Im Gegenteil erwarte ich für Dual-CCD mit V-Cache keinen sinnvollen Einsatzzweck,
Da musst Du mir mal helfen - woher beziehst Du diese Meinung? Was meinst Du mit Einsatzzweck? Bei wem? Und was hat das mit dem Preisgefuege zu tun!? Die Kosten sehe ich nicht als Hemmschuhe siehe Preise von 5800X VCache wie Du selbst spaeter ausfuehrst.
Ich habe von den Benchmarkergebnissen und von den Cache-Latency-Diagrammen mitgenommen, dass es fürs Gaming ganz bedeutend auf die Latenz im Speicherzugriff ankommt, ob das nun im L0, L1, L2 oder L3 ist. Der V-Cache hat gezeigt, dass der sehr grosse L3 bei vielen Games bzw. komplexen Echtzeitanwendungen hilft die Leistung dramatisch zu erhöhen, insbesondere bei den Min-FPS bzw. die grössten Latenzen bzw. FrameDrops zu eleminieren.

Der L3 bei Zen ist ein Victim Cache. Damit der gefüllt wird muss der Thread durch den L2 bzw. durch den Kern, auch durch den im anderen Chiplet.
Vereinfacht gesagt bedeutet das, dass bei einer möglichen Nutzung eines L3 auf dem zweiten Chiplet erst mal der Thread verlegt werden muss damit der dort befindliche Cache überhaupt mit den Daten gefüllt wird. Dafür sorgt der Scheduler im OS, der sollte aber tunlichst auch länger bei einem Core verbleiben, hat der doch mit doppelt grossem L2 noch bessere Chancen länger optimal zu arbeiten. Die L3 Caches werden nach und nach mit den Daten der aktivsten Threads gefüllt, alle Cores haben Zugriff.

Der IF-Link hat aber nur 2GHz. Simplifiziert könnte mach auch sagen, sobald der Zen-Core einen L3 Wert aus dem anderen Chiplet zieht arbeitet der in dem Moment nicht mehr mit bis zu 5.8GHz sondern nur noch mit den 2GHz, er wartet auf die Antwort und wird in dem Thread schnell wie eine 2GHz CPU, gut falls dort mit SMT noch die Zeit genutzt werden kann. Die CPU ist also fast genauso gebremst wie bei einem SysRAM Zugriff, nur kommt beim SysRAM nochmals zusätzliche Latenz des DIMMs hinzu.
Wenn nun auf beiden Chiplets per V-Cache die Menge drastisch erhöht wird, dann muss zum einen der L3 länger über alle Chiplet-Cores gefüllt werden und produziert andererseits auch viele Hits. Die sind allerdings für Hohes FPS Gaming kaum besser als der direkte SysRAM-Zugriff. Das OS ist aber genötigt länger oder öfter zwischen den Chiplets die Threads hin und her zu schieben, damit der L3 gefüllt wird.

Unterm Strich ergibt das CPU-Seitig eine Spreizung der in der Bearbeitungszeit pro Frame im Vergleich zu einer Single-Chiplet CPU. Das ist nicht so akzentuiert, weil noch die GPU ihren Teil dazu beiträgt. Aber letztlich hat es bisher dazu geführt, dass eine DualChiplet CPU vom doppelten gemeinsamen L3 im Gaming gar nicht profitieren konnte, obwohl der fast so gross war wie der V-Cache des 5800X3D. Man hat im Wesentlichen im Vergleich zum simplen 8-Kerner nur die Skalierungs-Effekte gemessen am Takt gesehen. Im Gegensatz dazu hatte der grössere V-Cache gleichermassen mehr als ein GHz Taktnachteil ggü. Intel aufgehohlt.

Deshalb erwarte ich, dass ein Dual-Chiplet mit V-Cache im Gaming nur gleich schnell arbeiten würde wie ein Single-Chiplet mit V-Cache. Durch schlechtes OS Scheduling vielleicht mal etwas schlechter, bei mehr als 8 genutzen Kernen mal etwas besser.
Doppelter Preis ohne erlebbaren Effekt - für Anwender mit dem Fokus Gamer ist das kein Einsatzzweck.

Umgekehrt sieht man, dass bei Workstation-Applikationen für Multithreading über SMT16 hinaus der V-Cache auch kaum geholfen hat und allenfalls den Takt-Penalty kompensieren half. Für digitale Designer wäre der erwartete Aufpreis ohne echten Einsatzzweck. Auf dem Dual-Chiplet zwei V-Cache zu platzieren wird die CPU nicht doppelt teuer machen, aber dann wird es AMD auch nicht so viel Umsatz bringen können wie diese zwei X3D Chiplets als einzelne CPUs verkauft. Das sind Probleme im Preisgefüge für die beste Marge der produzierten Wafer. Das würde IMHO AMD also nur machen wenn man zu viel von den X3D Chiplets hätte.

Unterm Strich würde eine Dual Chiplet V-Cache CPU mit Zen4 aus meiner Erwartung nur für Nutzer interessant werden, die sowohl ernsthaft öfters erhebliche Multithreadingleistung benötigen und andererseits den doppelten V-Cache bezahlen würden um im Gaming maximale Leistung auch bei niedrigen Auflösungen zu erreichen -> aber gleichzeitig ab und an Drops bei der Min-FPS akzeptieren würden. Diese Art von Wolpertinger ist nach meiner Erfahrung ein scheues Reh. Würden gar ähnlich Probleme wie beim ersten Threadripper im Gaming auftauchen wäre das für AMD eine schlechte PR. Es gab dort auch nur Windows-Scheduler Fixes bis hin zur Chiplet-Deaktivierung via RyzenMaster, von Game-Engine Fixes zum Thread-Alignment habe ich kaum gelesen.

Sollte es wirklich einmal mit Windows ein perfektes CCD-sensitives Scheduling fürs Gaming geben, dann wäre die bessere Variante ein Zen4 X3D Chiplet mit einem Zen4c Chiplet zu kombinieren.
Doppelposting wurde automatisch zusammengeführt:

Alles rund um HSA ist in ROCm enthalten und vermutlich Server und CDNA lastig, daher auch wenig publicitiy - gibt auch regelmäßige Updates. Beispiel: https://github.com/torvalds/linux/blob/master/drivers/gpu/drm/amd/amdkfd/Kconfig
Ich hatte den Eindruck HSA ist nicht mehr in Hardware unterstützt. Würde annehmen das sind Legacy-HW Implementierungen in Linux.*noahnung*
Gibt es den AMD_IOMMU_V2 in aktuellen CPUs/APUs noch? Die Referenzierten GFX9 sind Vega-Architekturen. Seit RDNA habe ich nicht mehr etwas Neues von AMD über HSA gelesen. Die IOMMU muss HSA unterstützen, dass es geht. Meine Vermutung war AMD nahm das Thema intern und ist nicht mehr offen für andere Hersteller. Seit Januar 2020 gibt es da nichts Neues mehr, 6 Monate nach der 1. RDNA.
 
Zuletzt bearbeitet:
HSA scheint noch am Leben und ein Comeback zu feiern bei CDNA:
However, iGPU compute is back with CDNA3 as are HSA benefits. CDNA3 should still be targeted at high performance compute, and should have enough performance to compete with discrete GPUs.
image-27-1.jpg
 
HSA scheint noch am Leben und ein Comeback zu feiern bei CDNA:
However, iGPU compute is back with CDNA3 as are HSA benefits. CDNA3 should still be targeted at high performance compute, and should have enough performance to compete with discrete GPUs.
Ok, ich wusste nicht dass es diesen Artikel gibt der HSA bei CDNA aufgegriffen hat, offizell von AMD ist das eher kein Statement, eher Diskussion zur allg. Entwicklung. Ich halte den Artikel zur Hot Chips dahingehend falsch, als dass dort ein Kaveri-Slide zum Heterogeneous Queuing gezeigt wird. Sicherlich gibt es einen gemeinsame Speicheraddressierung zwischen CDNA und EPYC wie das bei den APUs damals eingeführt wurde und bspw. bei Konsolen üblich ist. Zum hQ Feature in Zen hätte man doch aber bestimmt etwas gelesen. Ich glaubee der Queue muss heute nach wie vor bei der CPU liegen die abfrägt ob die GPU "fertig" ist.
 
Das Prinzip ist doch identisch - Zero Copy und es zeigt die wegfallenden Schritte wenn ein gemeinsamer Speicher genutzt wird. Diese APU kommt ja noch und AMD hat sich eine Präsentation für das "Advantage" Programm ja auch noch vorbehalten.
AMD Smart-Technologien

Neue Performance-Dimensionen durch die kombinierte Leistung moderner Prozessor- und Grafikprodukte von AMD. Gamer erhalten einen Schub zusätzlicher Grafik-Performance, wenn es darauf ankommt, während Content Creator ihre Aufgaben schneller erledigen können.
Mal sehen ob da auch etwas Technologie mit echtem Impact für Performance dahinter steckt :) Es sind ja noch nicht beide Produkte auf dem Markt ;)
 
Gemeinsamer Speicherbereich ist ein Prinzip, da ist man so weit. Gegenseitige Threadübergabe als hQ ein weiterer Meilenstein damit kleinste Jobs auch auf GPU ausgelagert werden statt via AVX zu berechnen. Weil man mit HSA da schon einmal war wird man IMHO von Seiten AMD den HSA Begriff nicht verwenden solange man da nicht wieder angekommen ist. Auch das Thema herstellerübergreifende Schnittstelle in der Speicherverwaltung gehört eigentlich zu HSA. Ich denke man ist hier nach wie vor eher bei SYCL als bei HSA.
 
Nein, das glaube ich eher nicht. AMD hat das in Hardware 2013 gelöst mit hUMA. Warum sollten sie das nicht genau in diesem Szenario nutzen. Der Speicherzugriff mit Pointer-Übergabe - Pointerbeschreibung ist im Kleingedruckten der Folien unten.:
HSA-HUMA.jpg

 
ZEN4 ist aktuell bei Mindfactory verdammt billig:
- 7950X für 639 €
- 7900X für 509 €
- 7700X für 379 €
- 7600X für 269 €

Etwa 20 Prozent weniger als vor einem Monat.
 
Zuletzt bearbeitet:

Sehr interessant. Ich glaube dem folgenden Satz aus dem Fazit ist nichts mehr hinzuzufügen:

So like with the AVX-512 findings previously published for AMD Ryzen 7000 series, the AMD 4th Gen EPYC "Genoa" AVX-512 results are stellar and part of the reason for the terrific generational uplift from AMD EPYC 7003 Milan(X) and the very strong showing against current Intel Xeon Scalable "Ice Lake" processors. B
 
Zurück
Oben Unten