AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

BoMbY · 22.03.2015

Ich könnte mir übrigens gut vorstellen, dass die nächste Generation von APUs selbst ein bisschen HBM-Speicher mitbringen. Die Frage ist, wie man das vernünftig mit optionalem DDR4-Speicher mischen kann.

amdfanuwe · 22.03.2015

Wieso mischen?
Die erste Generation bringt 4 GB mit, reicht für günstige Laptops und normalem Desktop.
Wer mehr Speicher braucht, nimmt die Chips mit 16GB HBM der 2ten Generation.
Noch mehr Speicher gibt es dann nur noch teuer im professionellem Bereich.

Gast11062015 · 22.03.2015

Es würde bei einem A10 schon reichen z.b. 512MB-1GB HBM als Cache

BoMbY · 22.03.2015

Ich denke 2 unterschiedliche Speicherarten wären keine schlechte Idee. So wie es aussieht, können neuere APIs wie Mantle (HSA denke ich auch mal) mit so etwas auch umgehen. Man könnte das im normalen Windows-Betrieb einfach getrennt als GPU-Speicher und Hauptspeicher nutzen, und wenn die APIs es unterstützen, könnte man aus beiden Speicherarten das Optimum heraus holen, die Anwendung muss dann halt sehen, was im schnellen Bereich sinnvoll ist, und was im etwas langsameren Bereich (ähnlich wie bei NVidia-Grafikkarten

).

miriquidi · 22.03.2015

Zalpower schrieb:
Falsch, bei der Gpu spielt die Latenz eine Große Rolle

Durch die hohe Parallelität der Renderaufgaben sollte man die Aufgaben eigentlich recht gut umsortieren können, falls mal ein Bildareal auf Daten aus dem RAM wartet. GPUs haben allgemein auch kein so riesiges Cache-System um Speicherlatenzen zu verstecken. Daher wundert mich das etwas.

FredD · 22.03.2015

miriquidi schrieb:
Durch die hohe Parallelität der Renderaufgaben sollte man die Aufgaben eigentlich recht gut umsortieren können, falls mal ein Bildareal auf Daten aus dem RAM wartet. GPUs haben allgemein auch kein so riesiges Cache-System um Speicherlatenzen zu verstecken. Daher wundert mich das etwas.

Hmm...?

Figure 1.2 GCN Generation 3 Dataflow
The GCN processor hides memory latency by keeping track of potentially hundreds of work-items in different stages of execution, and by overlapping
compute operations with memory-access operations.
[...]

2.3.1 Local Data Share (LDS)
Each compute unit has a 32 kB memory space that enables low-latency
communication between work-items within a work-group, or the work-items within
a wavefront; this is the local data share (LDS). This memory is configured with
32 banks, each with 256 entries of 4 bytes. The AMD GCN processors uses a
32 kB local data share (LDS) memory for each compute unit; this enables 128
kB of low-latency bandwidth to the processing elements. The AMD GCN devices
have full access to any LDS location for any processor. The shared memory
contains 32 integer atomic units to enable fast, unordered atomic operations.
This memory can be used as a software cache for predictable re-use of data, a
data exchange machine for the work-items of a work-group, or as a cooperative
way to enable more efficient access to off-chip memory.

--- Update ---

BoMbY schrieb:
Ich könnte mir übrigens gut vorstellen, dass die nächste Generation von APUs selbst ein bisschen HBM-Speicher mitbringen. Die Frage ist, wie man das vernünftig mit optionalem DDR4-Speicher mischen kann.

Mittel-bis langfristig wird das natürlich das Ziel sein. HBM ist quasi eine Schlüsseltechnologie, um die bisherigen Bremsklötze der unzureichenden Speicheranbindung endlich loszuwerden. Die Kombination unterschiedlicher Speicherpools (auch mit kohärentem Adressraum) ist seit hUMA ja gegeben.

tex_ · 22.03.2015

Die Speicher sind ja wie beschrieben nicht nur ein RAM cache, sondern sollen auch den Datenaustausch zwischen den Compute Units vereinfachen.
Und bei den momentanen APUs ist es doch schon oft genug gezeigt worden, dass dort noch die Speicherbandbreite am stärksten limitiert. Wenn man diese erhöht kommen natürlich irgendwann auch andere Limitierungen zum Tragen.
Und niedrigere Latenzen zum Speicher könnten natürlich auch zu weniger komplizierten Cache Systemen für die GPU führen.
Am meisten profitieren trotzdem noch die CPU Cores vor allem wenn ein großer Cache fehlt.

unl34shed · 22.03.2015

FredD schrieb:
Mittel-bis langfristig wird das natürlich das Ziel sein. HBM ist quasi eine Schlüsseltechnologie, um die bisherigen Bremsklötze der unzureichenden Speicheranbindung endlich loszuwerden. Die Kombination unterschiedlicher Speicherpools (auch mit kohärentem Adressraum) ist seit hUMA ja gegeben.

Das geht nicht nur seit hUMA sondern schon immer. Der speicher ist für die CPU nur eine Adresse, im Prinzip kann es ihr egal sein, wie hoch die Datenraten sind, wie die Latenzen ausfallen und wie die Daten gespeichert werden. Hierfür ist/sind dann der/die Speichercontroller zuständig.
hUMA hat nur den kohärentem Adressraum hinzugefügt, mehr eigentlich nicht.

Bei großen CPUs war das aber meines Wissens nie ein Problem, da die Bandbreite immer gereicht hat mit dem aktuellen DDRx Ausbau. Es gab aber auch noch nie so leistungsstarke GPUs mit an Board, die den Speicher geteilt haben.

Da hUMA aber auch nicht den VRAM der iGPU abschaffen kann, wäre wie oben gesagt ein 1-2GB großer HBM-VRAM für die GPU gleich mit auf dem Träger nicht verkehrt und könnte sich sehr positiv auf die Bandbreitenprobleme aktueller APUs auswirken. Selbst der kleine HBM Speicher sollte mehr Bandbreite haben als DDR3 bzw. 4 und wäre allein der GPU zugänglich. Wenn man bedenkt, dass die Kaveri A10 noch gute 50% ihrer Leistung wegen dem Speicher auf der Strecke lassen (7750 DDR3 vs GDDR5), wäre das ein riesen Gewinn und würde sogar Luft für größere APUs (mit mehr Kernen und Shadern) zulassen.

Das die APUs HBM bekommen ist mMn. sicher, die Frage ist nur wann. Vllt. gibt es sogar noch einen Testlauf vor Zen?
Die Zukunft wird in der Hinsicht (hoffentlich) spannend.

drSeehas · 22.03.2015

tex_ schrieb:
... Am meisten profitieren trotzdem noch die CPU Cores vor allem wenn ein großer Cache fehlt.

Wieso profitieren CPU Cores wenn ein großer Cache fehlt?
Das verstehe ich nicht.

amdfanuwe · 22.03.2015

Der größte Vorteil für HBM auf dem Träger sind doch die Kosteneinsparungen für die Industrie.
Einfachere, kleinere Mainboards, keine Speicherslots mehr, kein verifizieren der RAM Riegel mehr etc..
Das mehr Geschwindigkeit interessiert die OEMs doch nicht, sieht man doch an der single Slot Bestückung in den Laptops oder billig PCs.

Complicated · 22.03.2015

unl34shed schrieb:
hUMA hat nur den kohärentem Adressraum hinzugefügt, mehr eigentlich nicht.

Und vergiss dabei nicht das "h" in hUMA - heterogener gemeinsamer Adressraum war zuvor nicht gegeben, ebenso der kohärente Cache in heterogenen Speichern.

Gast11062015 · 22.03.2015

tex_ schrieb:
Und bei den momentanen APUs ist es doch schon oft genug gezeigt worden,
dass dort noch die Speicherbandbreite am stärksten limitiert. .

Stimmt so nicht,
DDR3 2800/2933 bringt weniger als DDR3 2400 mit Guten Timings

miriquidi schrieb:
GPUs haben allgemein auch kein so riesiges Cache-System um Speicherlatenzen zu verstecken. Daher wundert mich das etwas.

Müssen die auch nicht, GDDR5 kam 2013 auf ca. 5,5ns
dagegen steht ein klassischer DDR3 2133 Riegel für die Apu mit 10,5ns

edit: da hat sich das Komma verschoben

tex_ · 22.03.2015

Die CAS read latency liegt bei hynix GDDR5 Modulen bei 17-20 Takten bei 6Gbps. Das sollten also 3 GHz (DDR) sein, also um die 6ns, oder?
Dass die APUs nicht von DDR 2900 profitieren liegt aber wahrscheinlich daran, dass dier Speichercontroller nur für maximal 2400 ausgelegt ist. Vielleicht kann man das aber durch übertakten der APU NB umgehen...
Durch die niedrigeren Latenzen holt man dann etwas mehr Performance raus, weil der höhere Durchsatz nicht umgesetzt werden kann.

PuckPoltergeist · 23.03.2015

gruffi schrieb:
Das Problem ist, nicht für jedes Stückchen Code lohnt es sich, dieses auf die GPU auszulagern. GPUs brauchen einfach einen gewissen Grad an Parallelität. Ansonsten wird der Overhead grösser als ein möglicher Geschwindigkeitsgewinn. Insofern braucht man schon noch SIMD Einheiten in der CPU. Sowas wie 512-bit AVX3.x ist mMn aber unnötig. Eine 256-bit SIMD Pipeline ist eigentlich optimal für eine Client CPU und oft schon überdimensioniert.

Nach meiner Erfahrung, wird nicht mal auf SSE2 wirklich gut optimiert, sofern das nicht per Hand gemacht wird. Da jetzt nocht die Vector-Einheit der CPU aufzubohren, ist für mich Perlen vor die Säue.
Natürlich setzt Intel nicht auf HSA. Da würden sie ja AMD in die Hände spielen. Aber genau deshalb ist für AMD gerade hier der meiste Gewinn zu machen.

cyrusNGC_224 · 24.03.2015

Aber Intel setzt doch auch auf huma? Ich würde meinen, die bauen das alles klammheimlich bei sich ein und steigen dann plötzlich ein, wenn die eigenen GPUs ähnlich leistungsfähig sind.

Complicated · 24.03.2015

Intel hat hier zuletzt auf zusätzlichen EDRAM für ihre Iris Pro GPUs genutzt - das steht hUMA engegen, solange die CPU nicht ebenfalls darauf zugreift.

clearlake · 24.03.2015

Complicated schrieb:
Intel hat hier zuletzt auf zusätzlichen EDRAM für ihre Iris Pro GPUs genutzt - das steht hUMA engegen, solange die CPU nicht ebenfalls darauf zugreift.

edram in Iris pro ist als echter L4 Cache ausgelegt:
"Crystalwell Architecture: Unlike previous eDRAM implementations in game consoles, Crystalwell is true 4th level cache in the memory hierarchy. It acts as a victim buffer to the L3 cache, meaning anything evicted from L3 cache immediately goes into the L4 cache. Both CPU and GPU requests are cached. The cache can dynamically allocate its partitioning between CPU and GPU use. If you don’t use the GPU at all (e.g. discrete GPU installed), Crystalwell will still work on caching CPU requests. That’s right, Haswell CPUs equipped with Crystalwell effectively have a 128MB L4 cache." (http://www.anandtech.com/show/6993/intel-iris-pro-5200-graphics-review-core-i74950hq-tested/3)

Iris pro mit edram scheint als Broadwell übrigens auch noch für Desktop zu kommen (http://vr-zone.com/articles/intel-c...desktop-broadwell-cpus-arrive-soon/89330.html)

Complicated · 24.03.2015

Hmm... mir war gar nicht bewusst, dass die CPU das auch als L4 Cache nutzt. Ich glaube kaum, dass die CPU davon profitiert, sondern eher Latenz dazu kommt...aber um gemeinsame Addressierung zu ermöglichen wohl auch notwendig wie ich schrieb. Allerdings finmde ich Intels Speicherarchitektur auch schwer durchschaubar mit dem eingeführten LLC wird mir nie so ganz klar welcher Teil wie viele Cachestufen eigentlich ansprechen kann.

gruffi · 24.03.2015

Denke auch nicht, dass die CPU grossartig davon profitiert. Ausser vielleicht in einigen wenigen bandbreitenlimitierten Anwendungen, wie Pack- oder Verschlüsselungssoftware.

clearlake · 24.03.2015

was man erreicht hat mit dem L4 zeigt ja die Grafik (http://images.anandtech.com/doci/6993/latency.png)
bei File größen bis 8M ist das Verhalten der Maschine mit L4 identisch zu denen ohne L4
ab Filegrößen von 8M bis 256M wirkt sich der L4 in einer Verdoppelung der Performance aus
ab 256M ergeben sich leichte Nachteile

auf die cache architektur von Zen darf man gespannt sein,
ob AMD auch den kostenträchtigeren Weg einschlägt, den Intel mit immer weiteren Caches ging, oder den bisherigen günstigeren Ansatz beibehält und hofft, mit HSA einigermaßen gegenhalten zu können

wobei man wohl auch sagen muss, dass auch intel nicht pennt, sondern shared virtual memory, generischen address space, opencl, heterogene systeme, Parallelisierung unterstützt
(https://software.intel.com/en-us/articles/the-generic-address-space-in-opencl-20)
Das ist offenbar eine auf breiter Front voranschreitende Entwicklung

Complicated · 24.03.2015

Du verlinkst eine Grafik mit Speicherlatenzen und siehst dort eine dopplelte Performance? Performance von was bitte?

clearlake · 24.03.2015

na, Verdoppelung der Leistung gegenüber den Vorgängermodellen, das ist dann wohl hd4000

Complicated · 24.03.2015

Da sind aber nur halbierte Latenzen in bestimmten Ranges zu sehen in deiner Quelle. Wo ist das eine Verdoppelung von welcher Leistung? Deine Quelle zeigt keine Verdoppelung irgendeiner Leistung. Geringe Latenz für sich alleine ist noch überhaupt kein Leistungssprung.

clearlake · 24.03.2015

Verdoppelung nicht durchgängig sicher, aber sehr dick aufgetragen ist das trotzdem nicht
http://www.anandtech.com/show/6993/intel-iris-pro-5200-graphics-review-core-i74950hq-tested/2

notebook mit iris pro: http://www.computerbase.de/2013-07/intel-iris-pro-5200-grafik-test/5/
desktop-artiger brix mit iris pro:
http://www.legitreviews.com/gigabyte-brix-pro-review_136711/4
http://www.legitreviews.com/gigabyte-brix-pro-review_136711/6

iris pro 5200 notebook CPU im Desktop betrieben:
http://www.anandtech.com/show/6993/intel-iris-pro-5200-graphics-review-core-i74950hq-tested/6 ff
mit 47W bzw 55W TDP
broadwell mit iris pro 6000 als richtige Desktop-Version soll ja 65W TDP haben, da ist dann noch einiges mehr drin

aber wie geht AMD denn die Bandbreitenfrage bei APUs an?
Und AMD scheint ja immer noch auf der Suche zu sein nach einer sinnvollen Anwendung für die iGPU Leistung seiner Desktop-APUs

Complicated · 24.03.2015

Ich weiss ja nicht was du aus deinen Quellen liest. Doch bei Anandtech steht: Iris Pro 5200 hat 832 GFlops und die HD 5000 ohne EDRAM 704 GFlops. Wo verdoppelt sich da irgendetwas?

AMD hat zusätzliche Buse mit dem RMB und FCL:
https://books.google.de/books?id=xS...d=0CD8Q6AEwAw#v=onepage&q=AMD RMB FCL&f=false

Hier etwas detailierter für Kaveri:
http://pc.watch.impress.co.jp/video/pcw/docs/630/741/p16.pdf

AMD Zen - 14nm, 8 Kerne, 95W TDP & DDR4?

Grand Admiral Special

Grand Admiral Special

Gast11062015

Guest

Grand Admiral Special

Vice Admiral Special

Gesperrt

Commodore Special

Commodore Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Gast11062015

Guest

Commodore Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Lieutnant

Grand Admiral Special

Grand Admiral Special

Lieutnant

Grand Admiral Special

Lieutnant

Grand Admiral Special

Lieutnant

Grand Admiral Special

Ähnliche Themen