Die ganzen 1,35V Speicher können mir gestohlen bleiben.
Wenn, dann müssen es ordentliche sein, die der Norm entsprechen und nicht den IMC abrauchen lassen.
 
Die Preise bewegen sich schon langsam nach unten, ich vermute mal das die sich in den nächsten drei bis vier Wochen eingependelt haben. Bis dahin dürften dann auch schon die ersten Mini-ITX Mainboards draußen sein und einige Bios Updates geben.
 
Hallo

Ich habe da mal eine Frage zu den Auswirkungen der, im Vergleich zu Intel, anderen Cachestruktur.

So wie ich die Cachestruktur von Ryzen bisher verstanden habe, sind 4 MB des L3 Caches 4 Cores zugeordnet und die anderen 4 MB 4 räumlich getrennt angeordneten 4 Cores. Bei Intel sind alle 8 Cores in direkter nähe zu den 8 MB L3 Cache.
Der Ryzen ist also vergleichbar mit zwei 4Core CPUs deren L3 Cache miteinander verbunden ist und die in einem CPU Gehäuse sitzen.

Negativ bemerkbar (im Vergleich zu einer 8 Core mit einem gemeinsamen L3 Cache) macht sich das zB bemerkbar in dem von Heise getesteten Scenario bei dem man Spiele mit einer geringen Auflösung und sehr hoher Framezahl berechnen lässt.
Erklärt wird es dadurch, dass sehr viele Threads in raschen Wechsel abgearbeitet werden müssen und ein gemeinsamer großer L3 Cache häufiger die notwendigen Daten vorhält als 2 (jeweils 4 Cores zugeordneten) kleinere getrennte Caches.

Ich hoffe, dass so richtig verstanden zu haben, falls dem nicht so ist korrigiert mich bitte!

Jetzt zu meiner Frage.
Das (Test)Scenario welches Heise anwandte ist ja sehr weit entfernt von einer tatsächlich praktisch vorkommenden Nutzung, gibt es den tatsächlich angewandte Szenarien bei denen der aufgeteilte L3 Cache Nachteile hat? Welche wären das dann?
 
Ich würde sagen das es vor allem dann zum Problem werden könnte wenn er wie Intels 8 Kerner behandelt wird denn bei diesem können die Kerne über den L3 auf die Daten des anderen zugreifen weil dort eine L2 Kopie abgelegt ist. Beim Ryzen ist dies nicht der Fall weil dort die Daten im L3 liegen die aus dem L2 geflogen sind und auch nur über den 4er Block direkt geteilt wird, weshalb die Kommunikation dort anders abläuft.
Ein wildes hin und her schieben der Daten dürfte der Ryzen also schlechter verkraften als der Broadwell-E.
 
Zuletzt bearbeitet:
Danke für den Test!
Wie funktioniert eigentlich der Turbo? Gilt der Turbotakt nur für eine begrenzte Anzahl an Kernen oder nur einem kurzen Augenblick?

P.S. Könnt ihr vielleicht im 2. Teil auch mal die Leistung in Boinc testen.
 
Im BIOS kann man nur CL, tRCD, tRP imd tRAS, Takt und Spannung einstellen. Die weiteren Werte des RAMs können noch nicht angepasst werden. Der IMC ist nicht direkt ansteuerbar, er scheint immer mit RAM-Takt zu laufen.

Mittels AMDs Ryzen Master kann man die VDDIO VTT und VDDCR anpassen. Siehe hier.

Ahjo, das ist ja doch noch recht übersichtlich. Kein Wunder, dass es Probleme gibt wenn manche RAMs zickig sind, man aber kaum was ändern kann. Wie sieht es denn mit der Vcore aus? Lässt sich da was einstellen?
 
Cache design ist eine Wissenschaft fuer sich. Es ist alles andere als trivial als Laie da mitzuspielen.

Da das Cache Design exclusiv ist, also daher keine Kern zu Kern Komminikation ueber den L3 moeglich ist, waere es nicht naheliegend den L2 als 2mb shared auszulegen anstatt 512mb je Kern? Andersherum gefragt, was ist der Vorteil den L2 dediziert je Kern zu organisieren bzw den L3 zu sharen wenn die Wahrscheinlichkeit dass dieser relevante Daten enthaelt gering ist.

Gruss Hotstepper
 
Da das Cache Design exclusiv ist, also daher keine Kern zu Kern Komminikation ueber den L3 moeglich ist, waere es nicht naheliegend den L2 als 2mb shared auszulegen anstatt 512mb je Kern? Andersherum gefragt, was ist der Vorteil den L2 dediziert je Kern zu organisieren bzw den L3 zu sharen wenn die Wahrscheinlichkeit dass dieser relevante Daten enthaelt gering ist.

512 MB Cache wären schön ;)

Das Problem beim der gemeinsamen Nutzung sind halt Zugriffsprobleme. Ein L2 sollte schon noch relativ lokal und schnell sein, das ist schon ok. Laut der eigenen AMD-Messungen ist der L2 fast so schnell wie der L1, das ist schon sehr gut. Würde da noch ein oder mehrere Kerne hineinpfuschen würde man das sicherlich nicht schaffen.
Nachdem ein Kern mittlerweile auch bei AMD mit 2 Threads läuft, ist das ein weiterer Punkt gegen gemeinsam nutzbare L2-Caches.

Genau genommen ist es die gleiche Designentscheidung wie beim den 8MB L3 Cachemodulen: Näher am Kern, unkomplizierte Beschaltung -> schnellerer Zugriff, weniger Transistorenverbrauch -> weniger Energieverbrauch.

Nachteil: Programme in denen Threads Daten untereinander austauschen. Dort muss man dann durch intelligentere Programmierung versuchen die Daten in den jeweiligen Cacheteilen zu halten. Höherer Aufwand, aber ich denke das ist es wert. Vor allem bei Serverprozessoren mit vielen Kernen laufen meist unabhängige Threads. Wenn ich was in nem Onlineshop bestelle, interessiert die Bestellung des anderen Users nicht die Bohne. Demgegenüber steigt bei Intel der Aufwand des Ringbusses immer mehr - bei sinkender Leistung.
Da waren die Zen-Designentscheidungen schon gut. Am schlechtesten werden Spiele laufen, da dort ab und an Daten synchronisiert werden. Dafür das noch nichts optimiert ist, ist die Leistung aber auch schon relativ gut.

--- Update ---

P.S. Könnt ihr vielleicht im 2. Teil auch mal die Leistung in Boinc testen.
Keine Angst, das läuft schon ;)
Da Boinc-Projekte keine Daten untereinander ausstauschen, ist mit (sehr) guten Ergebnissen zu rechnen.
 
Schon mal versucht, mit einem problematischen Spiel, die CPU-Kerne nach Start manuell im Task-Manager zuzuweisen?
Also alle Kerne und SMT-Kerne auf einem CCX-Modul (0-3 + 8-11, oder 0-7) zuweisen, und überprüfen, ob die Leistungsschwäche schwindet.
Das Betriebssystem und Grafik-Treiber, etc. kann ja auch auf dem anderen CCX Modul laufen, dh. das braucht man für den Test nicht abzuschalten.
 
Zuletzt bearbeitet:
moin auch,

ich habe den test wirklich genossen. excellente arbeit für die kurze zeit.

wie lange haben wir auf prozessoren gewartet, die intel etwas erschrecken! in einigen tests englisch und deutsch glaubte ich "call us before you write" wiederzuerkennen.

die spiele benchmarks in 1920 x 1080 sind für echte zocker heutzutage eher zweite wahl. wer sich einen i7-6900 leistet in verbindung mit einer hochklassigen grafikkarte zockt sicher nicht nur in hd.

soviel dazu: jetzt kann endlich wieder geplant werden ein ganz neues amd-system zu basteln.

gut gemacht amd - und onkel_dithmeyer und team!!
 
???
Ryzen hat 2 x 8 MB L3-Cache.

Stimmt ich hatte die Größe des L3 von der Gesamt CPU mit der eines CCX verwechselt.

Dennoch bleibt, wenn ich da nicht etwas falsch verstanden habe, die unterschiedliche Anbindung der Cores an den L3. Bei Intel sind alle Cores um einen (gemeinsamen) L3 angeordnet und bei amd hat man 2 Vierergruppen von Cores mit jeweils einem eigenem L3. Die eine Vierergruppen von Cores mit L3 ist von der anderen Vierergruppe Cores und dessem L3 räumlich weiter entfernt und die Kommunikation eines Core mit einem weiter entfernten L3, ist halt langsamer.

Und meine Frage ist, bei welchen praxisrelevanten Anwendungen oder Spielen (also nicht der realitätsferne Tests wie bei Heise) sich das denn bemerkbar macht.
 
Stimmt ich hatte die Größe des L3 von der Gesamt CPU mit der eines CCX verwechselt.

Dennoch bleibt, wenn ich da nicht etwas falsch verstanden habe, die unterschiedliche Anbindung der Cores an den L3. Bei Intel sind alle Cores um einen (gemeinsamen) L3 angeordnet und bei amd hat man 2 Vierergruppen von Cores mit jeweils einem eigenem L3. Die eine Vierergruppen von Cores mit L3 ist von der anderen Vierergruppe Cores und dessem L3 räumlich weiter entfernt und die Kommunikation eines Core mit einem weiter entfernten L3, ist halt langsamer.

Und meine Frage ist, bei welchen praxisrelevanten Anwendungen oder Spielen (also nicht der realitätsferne Tests wie bei Heise) sich das denn bemerkbar macht.
Die Frage ist dann aber , warum sollte ein Kern vom CCX0 auf den L3 Cache vom CCX1 Zugreifen müssen?
In den L3 Cache von CCX1 zu schreiben geht doch viel schneller, genau so das auslesen.
Die Entwickler nutzen dafür die "Pointer" und Queues für den RAM. ;)
Eine einzelne Anwendung wird bisher keine 8 MByte benötigen sonst hätte Intel viel größere Probleme, da deren nutzbarere L3 Cache Größe - L2 Größe entspricht. :)
 
Die Frage ist dann aber , warum sollte ein Kern vom CCX0 auf den L3 Cache vom CCX1 Zugreifen müssen?
In den L3 Cache von CCX1 zu schreiben geht doch viel schneller, genau so das auslesen.

Das ist ja meine Frage, so wie ich es bisher verstanden habe hat Heise durch seinen Test von Spielen mit recht geringer Auflösung aber sehr hohen Frameraten ein derartiges Scenario (teilweise) provozieren können. Aber die von Heise genannten hohen Framrates erscheinen mir (als Nichtspieler) eher unsinnig.

Zitat aus dem Heise Test
" Den offiziellen AMD-Benchmarks zufolge hält Ryzen oft mit dem i7-6900K mit - allerdings nur beim Spielen in hohen Auflösungen, also im GPU-Limit. Bei niedrigen Auflösungen fällt er unerwartet deutlich zurück.
AMD Im Vergleich mit dem i7-6900K schaffte Ryzen in Rise of the Tomb Raider nur 137 statt 208 fps im Mittel, bei GTA V 155 fps statt 177 fps, bei Dragon Age Inquisition 127 statt 150 fps und in Mordors Schatten 193 statt 292 fps. "

Die Entwickler nutzen dafür die "Pointer" und Queues für den RAM. ;)
Eine einzelne Anwendung wird bisher keine 8 MByte benötigen sonst hätte Intel viel größere Probleme, da deren nutzbarere L3 Cache Größe - L2 Größe entspricht. :)

Wenn alle Entwickler (wie auch immer) dafür Sorge getragen haben das kein Core auf Daten zugreifen muss die in einem entfernten L3 Cache stehen, wie lässt sich das genannte Scenario von Heise dann erklären?
 
Zuletzt bearbeitet:
@dersucher
Naja, Intel hat doch ein Ring-bus L3 Cache, daher egal woher die Daten reinkommen, sie kommen an die Richtige Adresse.
Klappt mit zwei Ring-buse nicht mehr ganz, da diese sich beim Ryzen austauschen müssen, wenn es der Entwickler nicht fest legt (CCX0 / CCX1).
 
@dersucher
Aktuell gibt es noch zu viele Ansatzpunkte für Leistungseinbrüche um sich auf einen zu beschränken.
Bisherige Ansatzpunkte sind zwar CCX0 - CCX1 Verbindung, sowie die Anbindung des Speicher Controllers aber gerade bei SMT Prozessoren spielt auch der Sheduler vom Betriebssystem eine entscheidene Rolle. Wenn der mit der neuen Hardware nicht umgehen kann dann kann es bei der schlechten Skalierung von SMT zu einem massiven Leistungseinbruch kommen wenn die Prozessorlast falsch verteilt wird.

Die Ryzen Modelle sind die ersten AMD Prozessoren mit einem solchen SMT Aufbau und es ist gut möglich das diverse Spiele ins Stolpern kommen weil sie vom Betriebssystem noch nicht korrekt unterstützt werden. Bei normalen, gut parallelisierten Anwendungen geht die Problematik hingegen völlig unter weil ein Gesammtergebnis am Ende raus kommt und nicht mehrere parallel laufende Aufgaben laufen die sich gegenseitig ausbremsen können.
 
Frag Windows,da wird immer gut Durchgereicht und NICHT fest auf die Kerne Verteilt.
Was ja bisher völlig ok war, da es keine doppelten L3 Cache gab, außer bei den Server CPU´s.

Es ist evt. auch der Blickwinkel von den Entwicklern, seither sahen sie Richtung System/RAM aus der CPU/SoC.
Nun sollten sie eher vom Speicher aus schauen/programmieren:

genz-fabrict2bj7i.jpg
 
Die ganzen 1,35V Speicher können mir gestohlen bleiben.
Wenn, dann müssen es ordentliche sein, die der Norm entsprechen und nicht den IMC abrauchen lassen.

Das sehe ich genauso. Ich habe mir die G.Skill Ripjaws F4-2666C15D-16GVR Arbeitsspeicher 16GB PC 2666 (CL15, 2x 8GB) geholt. Die laufen, wenn ich das XMP Profil im Bios anwähle wie sie sollen mit 15-15-15-35 bei 1.2 Volt. Man kann allerdings auch nichts manuell ändern (Gigabyte GA-AB350-GAMING 3 mit Bios F4)
 
Mall ne Frage, macht ihr in der Fortsetzung auch einen Windows 7 - Windows 10 Vergleich?
Bei einigen Tests die ich gesehen hatte schnitt der Ryzen vor allem bei den min. FPS unter Windows 7 deutlich besser ab.
 
@sompe: Ich denke man sollte eher warten, bis ein SMT Patch für Windows 10 erschienen ist, da Windows 7 auch nicht das Maß aller Dinge darstellen dürfte, obgleich SMT in Spielen dort aktuell besser skalliert... Dann kann man ja nochmal Windows 7 vs Windows 10 SMT Patched vergleichen und sehen, ob der Windows 10 Patch einen Mehrwert bietet oder immernoch schlechter als legacy Windows 7 performt...

--- Update ---

brauchen wir ein Hardwareupdate für das Boot? ^^
Warum seit ihr damals eigentlich vom Opteron 290 auf den kleinen 270er gewechselt? Zu viel Leistung? :]
 
Zurück
Oben Unten