News Ryzen Codeoptimierung - Agner Fog stellt Ryzen Analyse online

User-News

Von E555user

Hinweis: Diese "User-News" wurde nicht von der Planet 3DNow! Redaktion veröffentlicht, sondern vom oben genannten Leser, der persönlich für den hier veröffentlichten Inhalt haftet.
Agner Fog hat heute seine Testergebnisse zur Ryzen-Architektur online gestellt (man achte auf die Uhrzeit) Aber vorsicht - hier gibt es keine Benchmark-Balken - ggf. bitte weiter gehen *lol*

Dazu erweitert er seine Dokumentensammlung zu Microarchitekturen, Instruktionen-Laufzeiten und Code-Optimierung um die Eigenheiten der Ryzen Familie.
Interessant sind dabei seine Erläuterungen zu möglichen SMT-Optimierungsmöglichketen bei Ryzen gegenüber Intel sowie dass FMA4 auf Ryzen vollständig funktionsfähig sei. Für alle die sich für Codeoptimierung und Microops im einzelnen interessieren ist das sicherlich ein tiefgreifender Fundus an Informationen über alle x86 Designs.

Für alle die nur das Fazit wissen wollen ein Zitat aus seinem microarchitecture.pdf - Kapitel 21 "Comparison of microarchitectures"
The Ryzen processor put AMD back in the game after they had lagged behind Intel for several years. The Zen kernel has a throughput of five instructions per clock cycle, which is the record so far. The throughput is particularly high for 128-bit vector code. The Ryzen can calculate four 128-bit floating point vectors per clock cycle, or two 256-bit vectors.
The high throughput places a higher burden on programmers and compilers to utilize the increased instruction level parallelism in single threaded applications. The core throughput is so high that it makes good sense to run two threads per core, unlike some other processors with less core throughput which are likely to see a serious performance drop due to the two threads competing for the limited resources.
The new ?op cache is an important improvement which removes the bottleneck of instruction fetching and decoding in most of the critical loops.
The large caches at all levels is a particularly important improvement. But the cache bandwidth is limited to 32 bytes per clock which is less than the best competing Intel processors.
 
Zuletzt bearbeitet:
Oha, Anger Fog persönlich?
Let us, get ready to rumble! :)
 
Zuletzt bearbeitet:
Zurück
Oben Unten