News 5800x3D Benchmarks veröffentlicht

User-News

Von Hotstepper

Hinweis: Diese "User-News" wurde nicht von der Planet 3DNow! Redaktion veröffentlicht, sondern vom oben genannten Leser, der persönlich für den hier veröffentlichten Inhalt haftet.
AMD hat in den vergangenen Jahren in Kooperation mit dem Haus und Hof Lieferanden TSMC eine Chipstacking Technologie entwickelt, die es ermöglicht, über sogenannte Through Silicon Vias (TSVs) Chips zu stapeln und so unabhängig voneinander gefertigte Dies miteinander in der 3. Dimension direkt zu koppeln. Direkt koppeln ist hier wörtlich zu nehmen. Ungleich der Kombination einzelner Dies auf dem Package (CCD+IO Dies), beispielsweise über eine Punkt zu Punkt Verbindung wie die Infinity Fabric, verschmelzen TSV gestackte Dies quasi zu einem Die.

In der ersten Produktinkarnation benutzte AMD diese Technik, um seine mittlerweile schon länger erhältlichen Zen3 basierten Prozessoren der Server Klasse (EPYC Milan) um ein Cache Chiplet zu erweitern. Diese V-Cache (für vertical) genannte AMD Technik führte in der Folge zu Milan-X getauften CPUs, bei denen je Chiplet, zusätzlich zu den vorhandenen 32mb L3 Cache, nochmal 64mb L3 Cache zusätzlich verbaut wurden. In Summe also 96mb je CCD und somit bei Milan-X bis zu 768mb L3 Cache bei 64 Kern CPUs.

Auf der CES 2022 kündigte AMD dann an, diese Technologie auch in den mittlerer Weile 5 Jahre alten Sockel AM4 in Form einer Single CCD 5800x3D Zen3 CPU bringen zu wollen. Die 5800x3D CPU tritt mit 96mb L3 Cache, allerdings gegenüber dem herkömlichen 5800x, mit reduziertem Base und Boost Takt (nur noch 3.4/4.5GHz statt 3.8/4.7GHz) sowie ohne Übertaktungsfunktionen gegen Intels aktuelle Speerspitze (12900k) an, und richtet sich hier gezielt an Gamer, also Leute die mit ihrem PC hauptsächlich Videospiele spielen.

Sie soll am 20. April in den Läden stehen. Zumindest in Deutschland.

In Lima, Peru scheint das anders zu sein und dem Author der Seite XanxoGaming ist es gelungen schon vorab eine dieser CPUs im Ladengeschäft vor Ort zu kaufen und zu testen.

Verglichen wurden folgende Systeme:

AMD Test System (For Gaming)​

CPU AMD Ryzen 7 5800X3D
Motherboard: X570 AORUS MASTER Rev 1.2 (BIOS F36c)
RAM: G.Skill FlareX 4x8GB 3200 MHz CL14 (Samsung B-Die)
Graphics Card: NVIDIA GeForce RTX 3080 Ti Founders Edition
SSD: Samsung 980 PRO 1TB
SSD #2: Silicon Power A55 2TB
AIO: Arctic Liquid Freezer II 360
PSU: EVGA SUPERNOVA 750W P2
OS: Windows 10 Home 21H2 (Win Game Mode On, RSB On, HAGS OFF)

Intel Test System (For Gaming)​

CPU: Intel Core i9-12900KF (Power Limits Unlimited, no MCE)
Motherboard: TUF GAMING Z690-PLUS WIFI D4 (BIOS 1304)
RAM: G.Skill FlareX 4x8GB 3200 MHz CL14 (Samsung B-Die)
Graphics Card: NVIDIA GeForce RTX 3080 Ti Founders Edition
SSD: TeamGroup Delta MAX 250GB
SSD #2: Silicon Power A55 2TB
AIO: Lian Li Galahad 360
PSU EVGA SUPERNOVA 750W P2
OS: Windows 10 Home 21H2 (Win Game Mode On, RSB On, HAGS OFF).

Im Ergebnis liegen die beiden Systeme nicht überall weit auseinander, rein auf die CPU Gaming Performance liegt das AMD System aber jeweils mindestens gleich auf und teilweise erheblich vor dem Intel Top Model. Besonders trifft dies auf die kritischen 1% der langsamsten gerenderten Bilder zu.

Gemittelt über alle 11 Spiele und nach Auflösung ist der Abstand des 5800x3D gegenüber dem 12900KF:

1080p fps +5.8%
1080p 1%low +7.8%
720p fps +10.9%
720p 1% low +15.9%

Hier ein paar Bilder dazu:

1649770483817.png

1649770523868.png
1649770544268.png
1649770561657.png
1649770575719.png
1649770593107.png
1649770610464.png


AMD quetscht also am Ende der AM4 Ära nochmal genug Leistung aus dem 5 Jahre alten Sockel, um Intel mit ihrem Topprodukt wahrlich das fürchten zu lehren.

An der Quelle gibt es noch ein paar weitere Benchmarks, inkl. auch Cinebench und Co.
 
Zuletzt bearbeitet:
Habe auch schon in meinem Hallock-Video zu X3D zu den Benches hier kommentiert.
Die anderen Seiten von denen zur CPU habe ich aber übersehen. Mein Spanisch ist jetzt auch nicht so dolle.
Interessant dabei die News zu AGESA 1207 von Yuri Bubliy aka 1usmus, dass dort noch etwas mehr Performance herausgeholt werden soll.

Der angekündigte Vergleich mit Alder Lake und DDR5 wird sicherlich noch aufschlussreicher.
 
Habe gerade gelesen, dass AMD für die Stapel-Cache CPUs einen zusätzlichen Windows-Treiber für Optimierungen bringen will.
(Zip-DL in den News oder via ROG Forum):
AMD 3D V-Cache Performance Optimizer Driver 1.0.0.3
Etwas merkwürdig ist aber, dass sonst kein einziger Treiber im Paket erneuert würde.
Der PMF Driver, PPM Provisioning File Driver und USB4 CM Driver sind in den aktuellen Release Notes nicht enthalten. Nur der PMF zählt eine SubVersion hoch, der USB4 ist neu. PPM ist alt.

Ich könnte mir vorstellen, dass mit dem grösseren L3 ein einzelner Thread länger auf einem Core belassen wird, bevor der auf einen anderen Core wechselt.
Das steht unter der Annahme, dass der Victim Cache partitioniert je Core gefüllt wird und nur beim Lesen vollständig shared ist. In solch einem Fall könnten am ehesten noch Standardapplikationen profitieren. Andere Gründe fallen mir spontan nicht ein. Ein angepasstes Power-Management wäre letzlich im entsprechenden Treiber untergebracht.
 
Zuletzt bearbeitet:
Im Video von HWUB gibt es auch deutliche Anzeichen dafür, dass der Cache für bessere minFPS Werte auch in 4k sorgen kann.
 
Habe gerade gelesen, dass AMD für die Stapel-Cache CPUs einen zusätzlichen Windows-Treiber für Optimierungen bringen will.
(Zip-DL in den News oder via ROG Forum):
AMD 3D V-Cache Performance Optimizer Driver 1.0.0.3
Etwas merkwürdig ist aber, dass sonst kein einziger Treiber im Paket erneuert würde.
Der PMF Driver, PPM Provisioning File Driver und USB4 CM Driver sind in den aktuellen Release Notes nicht enthalten. Nur der PMF zählt eine SubVersion hoch, der USB4 ist neu. PPM ist alt.

Ich könnte mir vorstellen, dass mit dem grösseren L3 ein einzelner Thread länger auf einem Core belassen wird, bevor der auf einen anderen Core wechselt.
Das steht unter der Annahme, dass der Victim Cache partitioniert je Core gefüllt wird und nur beim Lesen vollständig shared ist. In solch einem Fall könnten am ehesten noch Standardapplikationen profitieren. Andere Gründe fallen mir spontan nicht ein. Ein angepasstes Power-Management wäre letzlich im entsprechenden Treiber untergebracht.
Gibt es denn Treiber inzwischen Offiziell von AMD ?
Wurde dieser bei den Reviews genutzt ?

Das kann ja lustig werden. ;)
 
Habe jetzt erst das HWUB Video mit 4k Vergleich zum Intel Core i9-12900K gesehen.
Die 4k Werte sind im Durchschnitt etwa gleich gut, die Vor- und Nachteile über die getesteten Titel wiegen sich auf.

Bei minFPS profitiert der grosse V-Cache in 4k in dieser Auswahl ein paar mal mehr als der Taktvorteil der Intel-CPU.
Valorant profitiert am meisten von V-Cache, CoD mehr vom Takt. Andere Beispiele lassen keinen Schluss für bestimmte Game-Typen zu. Es kommt wohl auf die Optimierung der jeweilgen Game-Engines an. Ich würde da für künftige Entwicklungen eher auf grösseren Cache und Multicore setzen.
Doppelposting wurde automatisch zusammengeführt:

Gibt es denn Treiber inzwischen Offiziell von AMD ?
Wurde dieser bei den Reviews genutzt ?

Das kann ja lustig werden. ;)

Nein, noch kein offizielles Paket, dafür ein neues Beta 4.04.11.742 (auf der AMD DL Webseite ist noch 4.03.03.431)
Folgende Treiber mit neueren Releases
  • AMD Processor Power Management Support
  • AMD UART Driver
  • AMD MicroPEP Driver
  • AMD PPM Provisioning File Driver
  • AMD USB4 CM Driver

Der 3D-V-Cache Performance Optimizer Treiber fehlt aber in der Tabelle in der neuesten Releasenotes wieder.
Ich habe den mal aus dem letzten Package entpackt, dort ist in den Readme folgendes
AMD 3D V-Cache Performance Optimizer Driver Release Notes
----------------------------------------------

Copyright
---------
(c) Copyright 2021 Advanced Micro Devices, Inc. All rights reserved.


Installation Notes:
------------------
Install via Windows Device Manager as outlined in the Readme.txt file

Revision History:
-----------------

AMD 3D V-Cache Performance Optimizer v1.0.0.3:
Initial Release
- This is a driver to improve the performance of AMD Ryzen based Desktop Chipsets.
Es gibt support in unterschiedlichen Versionen für Microsoft Windows 10 x64 und Microsoft Windows 11 x64
 
Zuletzt bearbeitet:
Habe jetzt erst das HWUB Video mit 4k Vergleich zum Intel Core i9-12900K gesehen.
Die 4k Werte sind im Durchschnitt etwa gleich gut, die Vor- und Nachteile über die getesteten Titel wiegen sich auf.

Bei minFPS profitiert der grosse V-Cache in 4k in dieser Auswahl ein paar mal mehr als der Taktvorteil der Intel-CPU.
Valorant profitiert am meisten von V-Cache, CoD mehr vom Takt. Andere Beispiele lassen keinen Schluss für bestimmte Game-Typen zu. Es kommt wohl auf die Optimierung der jeweilgen Game-Engines an. Ich würde da für künftige Entwicklungen eher auf grösseren Cache und Multicore setzen.
Die gibts doch schon, ein Threadripper hat 256MB L3 Cache (4*64MByte)

Wenn die Kunden nicht zu überzeugen sind und kein ECC RAM nutzen wollen, gibt es halt größere L3 Caches mit Multi-Bit ECC.
 
TR mit vielen Chiplets ist keine gute Gaming-Arch ;) Der L3 sollte schon einheitlich sein.
Vielleicht bringt Zen4 einmal ein 16-Core Chiplet am einheitlichen V-Cache.
Aber 8 schnelle Cores sollten im Gaming für die nächsten Jahre genügen, da die mit Cache und Takt die Entwicklung bei AAA-Titeln mit Blick auf die Konsolen-HW und schlechte PC-Adaptionen kompensieren können. V-Cache kann hier vieles ausbügeln helfen, ein verteilter L3 Cache wegen den zusätzlichen Latenzen eher nicht, mal davon ausgehend, dass die IF-Taktraten nicht stark anziehen würden.
 
Doch, das sind sie, ab der 5000 Reihe, sind ja auch Ryzen und keine EPYC. ;)

Das B2 Stepping scheint wohl auch Flacher zu sein, weniger hot-spots.
Dafür mehr Boost Spielraum.

8 Cores sind selbst mit 16 Threads: overloaded
Ab 12 Cores wird es "gemütlicher"
 
Ich erwarte einen Trend zu 1440 und 4k PC-Gaming bei 120 bis 144Hz wo eine Konsole in den Games nur bis zu 60Hz anbietet.
Bisher war die Erfahrung, dass Systeme mit schnellem Speichersystem (bzw. hohe Taktraten auch im Cache) ab 100Hz immer im Vorteil sind. Ob künftig mehr Threads als bei den Konsolen relevant werden können muss man abwarten.

Beim Puma Core lag der Takt und IPC wesentlich hinter den PC-CPUs der Folgezeit zurück. Bei aktuellen Zen2 Konsolen mit 3.6GHz wäre simpel gerechnet erst eine entsprechende Zen3 CPU mit 6GHz eine sichere Sache.

Aber es hilft schon der Umstand, dass der Konsolenchip nur 2x4MB L3 hat (vergleichbar Ryzen 5 4500) wo ein Desktop Ryzen Zen2 2x16MB L3 aufweist und der Zen3 mit V-Cache einheitliche 96MB on-chip anbietet.

Die Latenzen werden hier bei der Konsole nur bis 4MB Cache-Hits bei rd. 10ns liegen. Bei Cache-Hits zwischen 4MB und 16MB erlauben die grösseren CPUs schon vielache Zugriffsgeschwindigkeit, die geht beim V-Cache bis 96MB. Das sollte im Umkehrschluss die fehlenden GHz kompensieren können (1GHz = 1ns/Takt). Wahrscheinlich ist der Code künftig ohnehin entsprechend komplex und gerade höhere FPS könnten Speicherzugriffe wiederholen wäre der Cache nur gross genug.

Beim Dual-Chiplet liegt der Zugiff L3 on-die bei rd. 10ns, der off-die L3 hilft etwas die Steilwand im Anstieg zu brechen aber geht auch schnell auf rund 80ns zum Hauptspeicher. Dort werden teure Kits mit wenigen Nanosekunden Vorteil teuer gehandelt.
Ich vermute Dual-Chiplet CPUs verhalten sich aber im Gaming nur so lange gut, wie eine handvoll zeitkritischer Gaming-Threads auf dem gleichen 6 bis 8 Core Chiplet liegen. Wegen dem beliebten Tuning beim Infinity Fabric Clock gehe ich davon aus, dass Chiplet2Chiplet relevante Latenzen sind und bleiben. Auch der geringe Zugewinn vs. Single-Chiplet vs. V-Cache CPU zeigt das. Am Ende wäre beim Gaming mit extremem Multithreading nichts gewonnen mit den mehr Threads über Chiplets verteilt.

Man muss abwarten was kommt, das Latenzproblem stellt sich zumindest bei einer V-Cache CPU weniger bis gar nicht mehr. Mit einer zu den Konsolen vielfaches höheren Cache-Hit Rate würde ich annehmen, dass die sonst theoretisch fehlenden 1.5GHz Zen3 Takt für 120Hz Gaming kompensiert werden können.
 
Perfekt, neues Ziel:

Die Cache Hit-Rate sollte bei 99.99% liegen:

as-ssd-bench_sandisk1xejw6.jpg


Zumindest mit 4GByte L1 Cache. ;D
 
Das B2 Stepping scheint wohl auch Flacher zu sein, weniger hot-spots.
Dafür mehr Boost Spielraum.
Hast du da nähere Infos?
Nach dem Runterschleifen für den Zusatzcache dürfte das grundlegenen DIE zwar dünner sein aber beim Stackenkommt ja noch der Cache und die Spacer oben drauf wodurch ich eher davon ausgehe das diese Variante höher sein könnte und Heatspreader vom Deckel etwas dünner ausfallen müßte.
Ohne Stacking gehe ich nicht davon aus dass das DIE dünner ausfällt denn dafür wären dann auch dünnere Wafer warscheinlich die schneller brechen und beim dünner schleifen läuft man Gefahr die Durchkontaktierungen freizulegen. Würde man den Chip zu dünn schleifen würde sich die Wärmeverteilung im Chip selbst eher verschlechtern weil einfach zu wenig zum verteilen da ist. Dass kennt man ja noch von den alten Vollmetall Luftkühlern die eine gewisse Stärke des Bodens und der Kühlrippen benötigten um die Wärme zu verteilen.

Bei der Hotspot Geschichte würde ich also eher dabon ausgehen dass das Chip Design selbst entsprechend angepasst wurde um bei den Hotspots mehr Platz zum Verteilen zu lassen.
 
@E555user

Den gönne ich dir:

@sompe

10 Sekunde Bitte, work in progress...

Edit: "Hybrid Bond 3D" mehr Vertikale Leiterbahnen für Strom und Wärme.
 
"Hybrid Bond 3D" mehr Vertikale Leiterbahnen für Strom und Wärme.
Das ist doch letztendlich die Technologie mit der der Zusatzcache draufgebracht wird allerdings stecken diese Durchkontaktierungen nur im Bereich des L3 Cache. *kopfkratz
Allgemein mehr Verbindungen zwischen den Leiterbahnenebenen des Chips hat letztendlich nichts mit der Stacking Technologie zu tuen sondern wäre eher ein reguläres Redesign der Verdrahtungsebenen. *noahnung*
Der Bereich wo die Kerne selbst liegen wird nach dem Stacking mit den Spacern für die Wärmeübertragung angebunden um wieder eine plane Oberfläche zu erhalten.
 
"Hybrid Bond 3D" mehr Vertikale Leiterbahnen für Strom und Wärme.
Das ist doch letztendlich die Technologie mit der der Zusatzcache draufgebracht wird allerdings stecken diese Durchkontaktierungen nur im Bereich des L3 Cache. *kopfkratz
Allgemein mehr Verbindungen zwischen den Leiterbahnenebenen des Chips hat letztendlich nichts mit der Stacking Technologie zu tuen sondern wäre eher ein reguläres Redesign der Verdrahtungsebenen. *noahnung*
Der Bereich wo die Kerne selbst liegen wird nach dem Stacking mit den Spacern für die Wärmeübertragung angebunden um wieder eine plane Oberfläche zu erhalten.
Ja, der SoC muss es integriert haben, damit man sich die Option offen hält.

Das hilft unter anderem auch, EMI Einflüsse zu verhindern: Faradischer Käfig.
Ein Schritt weiter in der ECC RAM vernachlässigbaren Welt, ohne fürchterlich Optimierter Software...
 
Super, da hat sich mal jemand einen richtigen CPU-Brecher angeschaut: Stellaris

Das Game läuft nur Single Core (Optimierung, nein danke) und im Endgame hat die CPU viel zu berechnen.

1651303855159.png


Schade, dass man nicht einschätzen kann, wie sich der 5800X3D gegen Zen3 normal schlägt.
 
Das sieht für die erste Reinkarnation doch recht gut aus.
Klar ist, der Cache kann nicht Zaubern, aber er macht einen guten Job.

Ab einem 2P EPYC System, sind es dann halt 1,5 Gbyte Multi-Bit ECC, mit typical 8-10ns Zugriffszeit.
L2 und L1 sind nochmal flinker...
 
Es ist wie erwartet erst mal kein offensichtlicher Nachteil ein 5800X3D mit einem alten 300er Chipset Board zu nutzen.

Man muss also schon den Bedarf an PCIe4 für NVMe SSD haben oder gar GPU Compute, damit ein moderneres Board wirklich notwendig würde.

Solange die GPU ein 16-Lane PCIe Interface mitbringt sollte das alte Mainboard gleichermassen gut für Gaming geeignet sein wie ein moderneres Board. In diesem Testing gab es in Einzelfällen bessere Performance auf den alten Boards. Bei zu wenig VRAM auf der GPU und gleichzeitig zu wenigen PCIe-Lanes in der Anbindung müsste man in anderen Einzelällen wohl Nachteile hinnehmen.
 
Zurück
Oben Unten