AMD - Zen 3 - 7 nm / 6 nm - Vermeer, Cezanne, Warhol, Rembrandt, Dragon Point

Ich kann mir gut vorstellen, dass man vor allem auch am IO Die arbeiten wird, zumindest bei den Desktop Prozessoren.
Im Idle (und viele davon laufen ja häufig im Idle) ist das ja der größte Stromfresser. Beim Chipsatz würde es auch gut tun da anzusetzen.
Und im Hinblick auf Chiplet-basierte Notebooks muss da auch was getan werden (wobei da der IO Die sicherlich kleiner ausfällt).
 
Der IO Die für die EPYC 7000er scheint mit Zen3 der gleiche zu bleiben.
Wenn die anderen Gerüchte dennoch nicht falsch sein sollten wäre mit einem neuen 7nm+ IO Die vielleicht ein 15er Chiplet MCM möglich, 3 Reihen zu 5.
 
Ist halt die Frage, ob man einen IO-Die genauso effizient shrinken kann, denn dort sind ja hauptsächlich "Leiterbahnen" und Ausgangstreiber untergebracht, die man zwar shrinken kann, aber weiter mehrfach parallel anlegen müsste, um die Ausgangsleistung zu halten. Das war ja die Idee hinter dem Chiplet-Design, weil gerade der IO-Part nicht vom Shrink so profitiert wie die Rechenwerke + Cache selbst.
 
Ist halt die Frage, ob man einen IO-Die genauso effizient shrinken kann, denn dort sind ja hauptsächlich "Leiterbahnen" und Ausgangstreiber untergebracht, die man zwar shrinken kann, aber weiter mehrfach parallel anlegen müsste, um die Ausgangsleistung zu halten. Das war ja die Idee hinter dem Chiplet-Design, weil gerade der IO-Part nicht vom Shrink so profitiert wie die Rechenwerke + Cache selbst.
Das ist natürlich richtig. Man wird den Shrink dennoch irgendwann vornehmen, eben dann wenn 7nm absoluter Mainstream ist und es finanziell keinen großen Unterschied macht.
Milan kommt dafür vermutlich zu früh.

Aber ich hoffe eigentlich eher auf Verbesserungen im Design (soweit möglich).
 
Der IO Die für die EPYC 7000er scheint mit Zen3 der gleiche zu bleiben.
Wenn die anderen Gerüchte dennoch nicht falsch sein sollten wäre mit einem neuen 7nm+ IO Die vielleicht ein 15er Chiplet MCM möglich, 3 Reihen zu 5.

Ich glaub nicht, dass das mit den 15 Chiplets stimmt.

Die Richtung scheint ja klar zu sein. Zen 3 ist mehr Iteration. Man arbeitet an den Latenzen, wird an der Fertigung feilen, dass etwas mehr MHz drin sind und arbeitet hoffentlich am Verbrauch des IO-Die. Wahrscheinlich wird der Infinity Fabric auch noch mal angepackt werden, da limitieren einige Eigenarten ja auch noch.

Außerdem kommt dann ja noch der Custom Milan für Frontier, da hat AMD ja auch angedeutet, dass der nicht exklusiv für Frontier entwickelt wird, sondern auch anderen zur Verfügung gestellt wird. Eigentlich schade, dass AMD nicht Cray übernommen hat, aber die Zusammenarbeit mit HPE muss sich dann erst noch mal beweisen.


Alle größeren Änderungen scheint man wirklich auf Genoa zu konzentrieren. Ich stelle mir immer auch noch die Frage, ob AMD dann irgendwann auch mehr differenziert nach Segment und wirklich die CPU-Chiplets dafür verändert und nicht dasselbe für alles nimmt.

Eigentlich muss man sich ja auch bald die Frage stellen, ob mehr als 16 Kerne zum Beispiel für den Desktop auch überhaupt nötig sind. *noahnung*
 
Zen3 scheint auf den ersten Blick lediglich ein verbesserte Zen2 zu werden. Wenn sich sonst nicht viel ändert, dann muss es sich um ordentliche Verbesserungen in Bezug auf Effizienz und Leistung handeln. Der N7+ sollte gesetzt sein, zumal der deutliche Kosteneinsparungen bringen sollte: zum einen fällt die Diesize um rund 20% und dann sollten die Wafer aufgrund des schnelleren Durchlaufs (wegen EUV) günstiger sein. Zuletzt liefert er bessere Effizenz/Performance.

Bei Zen3 kann ich mir zudem vorstellen, dass AMD hier erstmals zwei Varianten davon bringen könnte: einmal auf Effizienz getrimmt (für Server und Notebook) und einmal auf hohe Takte (hohe Performance für Gaming und HPC).

Zen2 ist mit 74sqmm schon sehr klein. In N7+ würde er dann ohne Veränderung wohl nur 60sqmm klein. Der L3 soll aber nicht wachsen. Würden größere L2 Sinn machen? Oder L2 und L3 werden in ihrer Performance verbessert, was wohl Fläche kosten könnte.
 
Zen2 ist mit 74sqmm schon sehr klein. In N7+ würde er dann ohne Veränderung wohl nur 60sqmm klein. Der L3 soll aber nicht wachsen. Würden größere L2 Sinn machen? Oder L2 und L3 werden in ihrer Performance verbessert, was wohl Fläche kosten könnte.

Da in der Präsentation 32MB+ steht, scheint es jedenfalls nicht ganz ausgeschlossen, dass der L3 Cache pro CCD größer wird.
 
Da in der Präsentation 32MB+ steht, scheint es jedenfalls nicht ganz ausgeschlossen, dass der L3 Cache pro CCD größer wird.

Stimmt, das "+" habe ich übersehen, so wie es vermutlich in der anderen Folie bei "7nm" vergessen wurde ;)

--- Update ---

Zu meiner Vermutuing, dass AMD von Zen3 zwei Ausführungen bringen könnte:
- Variante optimiert auf Effizienz (Server und Notebook)
- Variante optimiert auf hohe Singlecore-Leistung (für HPC und Gaming),

@ Variante für High-Performance siehe hier auf AMDs Page zum Frontier-Supercomputer:
dort heißt es:
Das Frontier-System nutzt eine spezielle EPYC™ CPU, die für HPC- und KI-Berechnungen optimiert wurde.

Und in der Presentation zum Frontier-Supercomputer findet sich ein extra Slide zum
"High-Performance CPU custimized für HPC", siehe auf redgamingtech; und dort
Custom AMD EPYC processor opimized for HPC and AI
und
Utilizes Future "Zen" Core High-Performance Architecture

Das liest sich für mich, dass AMD ab Zen3 eine auf HPC-opimized Version von Zen3 zu entwickeln plant, also wohl dann auch für Gaming. Hier würde SMT4 nur stören.

Das würde dann auch erklären, dass zumindest die HPC-Variante kein SMT4 hat. Womöglich gibt es ja dann schon von Zen3 auch eine Variante mit SMT4, die auf Effizienz optimierte Version?

Zuletzt könnte das Wegfallen des "+" beim Prozess sogar noch Sinn ergeben: womöglich nutzt die HPC-Variante dann den N7P-Prozess statt N7+, weil hier eine erhöhte Dichte eher im Wege steht? Es bleibt dann hier womöglich auch bei 32MB-L3, dafür hoch taktbar, statt 32MB+. D.h. es wären dann nicht alle Zen3 auf "7nm+".
 
Zuletzt bearbeitet:
Ein größerer und besser nutzbarer L3 bringt auf jeden Fall Vorteile für Gaming und als Buffer für den Datenaustausch zwischen I/O und Kern Modul.

Was AMD da entwickelt hat man vor Jahren als "Unmöglich" angesehen, Man hat Studien gemacht und der Aufwand die Daten zu verwalten ist riesig. Aber heutzutage kann man mit Rechnern die Datenströme simulieren und analysiren. Um dann wieder zu optimieren. Was im I/O abgeht muss heftig sein. Ständig Daten aufsammeln und neu verteilen.

Für das Gaming ist Ryzen mit mehr als 8 Kernen nicht sinnvoill. Windows musste darauf optimiert werden das die Spieleberechnungen auf einem Kern Modul bleiben. Unter Linux bekomm ich keleine Freezer, wahrscheilich von dem her das die Daten über I/O verschoben werden.
 
Für das Gaming ist Ryzen mit mehr als 8 Kernen nicht sinnvoill. Windows musste darauf optimiert werden das die Spieleberechnungen auf einem Kern Modul bleiben. Unter Linux bekomm ich keleine Freezer, wahrscheilich von dem her das die Daten über I/O verschoben werden.

Selbstverständlich sind mehr als 8 Kerne für das Gaming oder jede andere Software sinnvoll.
Das Problem ist dass der Datenaustausch zwischen 2 oder mehr Kernen auch heute noch immer eine Ewigkeit dauert und es deshalb nur Sinn macht wenn man größere (grobgranular) Datenmengen je Kern verarbeiten kann.

Wesentlich besser wäre es wenn man feingranular parallel arbeiten könnte. Dann könnte jede noch so kleine Schleife parallel verarbeitet werden, Programmiersprachen bräuchten keine gesonderten Erweiterungen für die Parallelprogrammierung oder Threads auf die man dann auch weitestgehend verzichten könnte.

Warum gibt es bis heute keine X86 Erweiterung um z.B. einfach den Inhalt eines Registers an einen anderen Kern zu schicken, wie z.B. SEND Kern, BX ? Hier klemmt es noch an vielen Stellen sowohl bei den Prozessorherstellern wie auch bei den Compilerherstellern.
 
...
Zen2 ist mit 74sqmm schon sehr klein. In N7+ würde er dann ohne Veränderung wohl nur 60sqmm klein. Der L3 soll aber nicht wachsen. Würden größere L2 Sinn machen? Oder L2 und L3 werden in ihrer Performance verbessert, was wohl Fläche kosten könnte.

Meines Wissens sind gerade bei L1 aber auch bei L2 die Latenz gegen die Grösse des Cache abzuwägen. Evtl. ergaben sich mit dem Shrink auf 7nm neue Potentiale. Im Zweifel muss AMD genau das machen was Intel macht weil hierauf Code optimiert wird. Beim L3 ist das etwas anderes, hier wird in erster Linie der langsame RAM kaschiert. 32MB+ würde ich aber dahingehend interpretieren dass es 32MB und mehr gibt, sonst hätte man einfach >32MB notiert.
 
Es würde mich nicht wundern wenn kein 4fach SMT drin ist denn ich sehe keinen praktischen Nutzen in der breiten Masse.
Will man die zusätzlichen Threads nutzen brauch man Software die entsprechend breit aufgestellt ist aber in der Praxis versagt sie bereits und schafft es kaum 8 Kerne/Threads sinnvoll zu nutzen und auszulasten. Zudem sind die einzelnen Kerne inzwischen verdammt klein geworden (siehe die derzeitigen 8 Kern Chiplets), weshalb man vermutlich auch gleich auf volle Kerne setzen könnte, welche hierbei auch unproblematischer wären als wenn sich 4 Threads um die Ressorcen eines Kerns kloppen. Der praktische Nutzen von 4 fach SMT ist in meinen AUgen einfach zu gering.
 
Es würde mich nicht wundern wenn kein 4fach SMT drin ist denn ich sehe keinen praktischen Nutzen in der breiten Masse.
Will man die zusätzlichen Threads nutzen brauch man Software die entsprechend breit aufgestellt ist aber in der Praxis versagt sie bereits und schafft es kaum 8 Kerne/Threads sinnvoll zu nutzen und auszulasten. Zudem sind die einzelnen Kerne inzwischen verdammt klein geworden (siehe die derzeitigen 8 Kern Chiplets), weshalb man vermutlich auch gleich auf volle Kerne setzen könnte, welche hierbei auch unproblematischer wären als wenn sich 4 Threads um die Ressorcen eines Kerns kloppen. Der praktische Nutzen von 4 fach SMT ist in meinen AUgen einfach zu gering.

Tatsächlich war Hyperthreading lange Zeit unter Windows ohne spürbaren Nutzen oder gar negativ in der Auswirkung. Erst SMT von AMD hat gezeigt dass man gar mehr Leistungsgewinne herausholen kann als das mit Intels Arch vorgegeben wurde. Besonders wichtig ist aber, dass Zen keine negativen Auswirkungen mehr aufzeigte, SMT ohne Sorge der Cache wird unbrauchbar. Am ehesten traut man AMD zu hier noch etwas weiter zu entwickeln. Das Paradoxon ist m.E., dass mit Inferencing eigentlich verstärkt parallele Int-Leistung gefragt ist. Etwas das mit Bulldozer Core Modules versucht wurde, aber ohne Erfolg wegen der Fertigungsnachteile und mangelndem Durchsatz mit fehlemdem MicroOp Cache. AI Anwendungsfälle (und BVH) würden auch mit dem lokalen Cache mehere Threads pro Core vertragen und dann gut skalieren.

Ich sehe aber auch nur Spezialfälle für SMT4, nichts für den Desktop.

Mit dem Chiplet-Design steht mehreren Core-Die Varianten eigentlich nichts im Wege. Da die bisherigen Chiplets so extrem über alle Produkte skalieren dürfte mit alter Personalstärke und robusten Fertigungsverfahren Luft genug sein ein, zwei weitere Core Chiplets mit anderen Prioritäten zu etablieren. Weniger Takt und mehr Cache, resp. zus. SMT ist da vor allem im Datacenter interessant. Sparc gab es auch mit sehr vielen Threads pro Kern, ich vermute man wusste schon damals dieses zu nutzen.
 
@Zen3:

Der N7+-Prozess spart 20% Fläche und die Wafer sollen billiger werden, sodass die Kostenersparnis womöglich schnell >30% wird. Droht AMD zudem eine 7nm-Wafer-Knappheit, wäre es für AMD enorm wichtig, möglichst schnell von N7 auf den günstigeren N7+ zu wechseln. D.h. man braucht möglichst schnell ein fertiges Zen3-Tapeout. Das Design soll seit einiger Zeit fertig sein. Wenn man nun einer Risiko-reduzierte Variante von Zen3 abspaltet (d.h. nicht viel mehr als ein Shrink von Zen2 sein könnte?), könnte AMD schneller Kosten sparen und die Anzahl produzierte CPUs alleine dadurch erhöhen, indem sie schnell neue kleinere Zen3-Dice in N7+ hätten.

Schon aus dieser Not heraus, hätte ich das Projekt Zen3 rechtzeitig aufgespalten: eine Abspaltung aus der Zen3-Entwicklung, die möglichst schnell fertig gestellt wird, d.h. man auf viele geplante Verbesserungen für Zen3 erst mal verzichtet. Diese Variante könnte ein möglichst schnelles Replacement für die aktuellen Zen2-Dice der aktuellen Matisse-CPUs werden. Man hätte kleinere Dice und mehr Wafer (weil kürzere Durchlaufzeit wegen EUV) und gleichzeitig etwas mehr Takt/Effizienz.

Nachdem Zen2 bisher nur in Desktop-CPUs und Server sind, würde ich dieses Replacement gezielt nur für Desktop (Matisse) planen, weil Sampling für Server zu lange dauert => und daher klare Optimierung auf Takt und Leistung für Gamer

Die ursprüngliche Zen3-Entwicklung mit allen gelanten Feature käme später und dürfte dann logischerweise auf Effizenz optimiert sein: für Server und Notebook.

Schon alleine diese Überlegung dürfte dafür sprechen, dass es wohl kein SMT4 (zumindest im ersten) Zen3 geben dürfte.
 
Zuletzt bearbeitet:
@Zen3:

Der N7+-Prozess spart 20% Fläche und die Wafer sollen billiger werden, sodass die Kostenersparnis womöglich schnell >30% wird. Droht AMD zudem eine 7nm-Wafer-Knappheit, wäre es für AMD enorm wichtig, möglichst schnell von N7 auf den günstigeren N7+ zu wechseln. D.h. man braucht möglichst schnell ein fertiges Zen3-Tapeout. Das Design soll seit einiger Zeit fertig sein. Wenn man nun einer Risiko-reduzierte Variante von Zen3 abspaltet (d.h. nicht viel mehr als ein Shrink von Zen2 sein könnte?), könnte AMD schneller Kosten sparen und die Anzahl produzierte CPUs alleine dadurch erhöhen, indem sie schnell neue kleinere Zen3-Dice in N7+ hätten.

Ich denke nicht dass der N7+ gleich günstiger ist wie der N7. EUV kostet einen Haufen Geld -- zudem ist es der neueste Prozess von TSMC. Ich denke genau das Gegenteil wird der Fall sein. N7+ wird deutlich teurer sein wie N7.

Auf N7+ wechseln bedeutet auch ein komplett neues Design herstellen, da andere Designregeln für den Prozess gelten. Zudem ist fraglich ob TSMC auch gleich viele Waferstarts für N7+ wie für N7 bereitstellen kann.
 
Ich denke nicht dass der N7+ gleich günstiger ist wie der N7. EUV kostet einen Haufen Geld -- zudem ist es der neueste Prozess von TSMC. Ich denke genau das Gegenteil wird der Fall sein. N7+ wird deutlich teurer sein wie N7...

Durch EUV entfallen viele Prozessschritte, vor allem das doppel/vierfach-Belichten. Dadurch können auf der selben Anlage mehr Wafer in gleicher Zeit durchgeschickt werden d.h. die Herstellung wird günstiger. Wieviel TSMC vom Kostenvorteil weiter gibt, ist natürlich eine andere Frage.
 
Morgen,
im HWluxx gibt es einen Beitrag der darüber spricht das Ryzen Gen 3 nur noch ab der 5. generation Chipsätze laufen soll.
Quelle.
Fände ich sehr schade wenn das wirklich so kommen sollte.
lg
 
AMD-Ryzen-1000-2000-3000-4000-Mainboard-Kompatibilitaet.jpg
 
Morgen,
im HWluxx gibt es einen Beitrag der darüber spricht das Ryzen Gen 3 nur noch ab der 5. generation Chipsätze laufen soll.
Quelle.
Fände ich sehr schade wenn das wirklich so kommen sollte.
lg
Am Anfang sicher, aber am Ende? Das steht aus. AMD garantiert nur 500 Serie. Aber die sagen auch, dass weder 1000 Serie auf X570 laufen noch Zen2 auf 300 Serie. Beides ist aber möglich...

Das mag also auch auf manchen 400 Serie Boards funzen, aber ev. einen Monat oder zwei länger dauern, wenn es kommt...
 
https://community.amd.com/community/gaming/blog/2020/05/07/the-exciting-future-of-amd-socket-am4
Q: What about (X pre-500 Series chipset)?
A: AMD has no plans to introduce “Zen 3” architecture support for older chipsets. While we wish could enable full support for every processor on every chipset, the flash memory chips that store BIOS settings and support have capacity limitations. Given these limitations, and the unprecedented longevity of the AM4 socket, there will inevitably be a time and place where a transition to free up space is necessary—the AMD 500 Series chipsets are that time.
 
Laut aktuellen Gerüchten 15-20% mehr IPC als Zen2. Das wäre mal ein Ding!
 
Wenn sie die Turbotakte stabil bekommen, also, EIN turbotakt für alle, wenn schon Turbo, DAS wäre mal ein Ding...
 
Der Sinn von Turbo ist doch aber, außer der Reihe etwas mehr Takt zu erlauben, ohne das thermische Budget zu sprengen. Und das klappt nur, wenn die Energie auf den anderen Kernen eingespart wird.
All-Core-Turbo wäre ja quasi Übertakten.
 
Wenn sie die Turbotakte stabil bekommen, also, EIN turbotakt für alle, wenn schon Turbo, DAS wäre mal ein Ding...
Das widerspricht aber doch dem Gedanken/Sinn von "Turbo".

Der ist nämlich so viel Performance, wie möglich aus dem Chip zu holen und dabei natürlich (möglichst) die TDP zu beachten.
Wobei letzteres bei den Blauen ausm Fenster geworfen wird, mit Boosts von 250W und mehr...
 
Der "Gedanke", ist nur eine Definition. Eine meist temporäre Festlegung. Von jemanden. Nicht von der ganzen Menschheit. Heute weiß man halt nie mehr so wirklich, wann und wo man mit welchem Takt zum Zeitpunkt landet.

Der Sinn des Gedanken von Turbo war bei Sandy oder Ivy eben noch anders. Sozusagen, schlichter. Dabei muss ich aber auch zugeben, daß ich nicht zu denen gehöre die "schlicht" immer gleich pauschal mit "primitiv" gleichsetzen.
Der "Gedanke" von Turbo benötigt heute dagegen Turbo Core 3.0, Precision Boost 2, Precision Boost Overdrive und Auto Overclocking. Oder hab ich noch was vergessen?

Und trotzdem ist das heute bei einem Ryzen wie bei einem Motor mit 200 PS, der wegen Spritverbrauch - weil alle Antriebsteile es da so schwer haben... - Berg auf Luft und Sprit nur für 165 PS bekommt, Berg ab aber 215 PS abliefern darf. Eigentlich bräuchte man die 215 PS eher Berg auf...
Daß es also einen guten Sinn hinter dem Gedanken gibt, daran müssen Leute die sich gerne eigene Gedanken machen also noch gewöhnen :]

Wenn man meint sich selbst was zusammenzubasteln, kann das auch mal zu sowas führen
https://www.planet3dnow.de/vbulleti...satz-ab-Juni?p=5281573&viewfull=1#post5281573

Persönlich find ich das halt noch nicht allgemein zufriedenstellend... Daß man aktuell abseits solcher Gedanken die Blauen pro € oder pro Watt oder pro egal-was, im vorbeigehen verhaut, weil sie ihren 10nm versemmelt haben, das ist natürlich mehr als nett. Ändert aber nichts daran, wenn man all die Aspekte auch mal einzeln betrachten möchte.
 
Zuletzt bearbeitet:
Zurück
Oben Unten