AMD - Zen 3 - 7 nm / 6 nm - Vermeer, Cezanne, Warhol, Rembrandt, Dragon Point

Funktionstüchtige 8 Core Chiplets wird man in 5800X, 5950X und Server einsetzen aber nicht im 5900X verbraten.
 
Obwohl die Vorstellung 8+4 ryzend klingt, allein der Sortieraufwand wäre wohl zu hoch für nen 5900X.
Ein 5+5 (5850X?) wäre mir noch lieber, schon alleine im intel zu ärgern. Aber die bringen ja in Zukunft nur 8 Kerner, von daher auch unnötig.
 
Ich bin auch überrascht, dass Hallock davon spricht die Inter-CCX Kommunikation läuft immer über den I/O Die. Bei einem Mesh hätte man erwartet das bleibt OnDie zwischen den CCX.
Die CCM sind demnach bei Chiplet von Zen2 im I/O Die. Die Latenzen zwischen CCX auf gleichem Die und entfernten Die waren aber nach meiner Erinnerung schon unterschiedlich.
Evtl. meint Hallock bei Zen2 musste immer die Kohärenz via I/O Die geprüft werden, aber die Daten wurden dann doch OnDie vom CCX Nachbarn gelesen. Oder waren die Latenzen zwischen allen CCX OnDie vs. OnChip doch die gleichen?
 
Da gab es mal diese Grafik:

siy01dt9c3931.png
 
Dann ist ja alles klar. Schön wäre noch eine Summit Ridge Tabelle für Zen1. Zen+ OK. Bei Matisse 8 Core und 12 Core sind die Latenzen aber schon arg unterschiedlich so dass die evtl. nicht vergleichbar sind, z.B. wegen unterschiedlichem Takt der CPU und IF.
 
Die sind ja alle auf 4 GHz Takt-normiert. Sonst wäre es nicht vergleichbar, wie du schon sagst. Daher ist die Praxis durchaus nochmal um das RAM- und Taktpotential abweichend.
 
Aber 15% bzw 7% langsamere Matisse 8Core vs. 12Core? Weil ein Core jew. abgeschaltet ist oder der IF höher taktete?
Bei der Graphik des 3900X steht der Takt nicht angeschrieben.
 
Bitte schön :)

G14%20Bounce.png


3950X
3950x.png


Blade%20Bounce.png


4900HS%20Cache%20Latency.png


Das hier finde ich sehr interessant:
(AMD makes a thread leave the chiplet, even when it’s speaking to another CCX on the same chiplet, because that makes the control logic for the entire CPU a lot easier to handle. This may be improved in future generations, depending on how AMD controls the number of cores inside a chiplet.)
Möglicherweise kann AMD mit Infinity Cache die Kontrollogik weiter entwickeln um eben auch Inter-CXX Kommunikation onDie zu verwalten ohne auf den IO-Die zugreifen zu müssen. Dann wäre ein 16-Core CCD mit 2 mal 8-Core CCX auf einem Chiplet der nächste Entwicklungsschritt um höher zu skalieren beim Corecount. AMD könnte so APUs bis 4-16 Kerne monolithisch bauen und Chiplets nur noch ab 16 Kernen aufwärts für die HEDT/Server-Produkte produzieren. Mit der Option immer bei jeder Generation zu schauen was günstiger ist und besser skaliert für die benötigten Segmente: monolithisch oder Chiplet. Vor allem wenn GPUs dann auch Chiplet-fähig sind.
 
Zuletzt bearbeitet:
Gerade nachgelesen in der Quelle. Die nachgeschobenen Grafiken sind ns Latenz, im Gegensatz zu denenen zuvor hier je SMT Core.

Nach meinem Verständnis müssten die Latenzen eigentlich je Gruppe eine einheitliche Anzahl Takte sein, die Unterschiede in den ns können nur Messvarianzen oder dem anliegenden Takt geschuldet sein.

Beim 3950x wäre ein ähnlich symmetrisches Bild für die zwei Chiplets erwartet wie beim 3900x. Offensichtlich hat beim Test des zweiten Chiplets dort aber irgend eine Bremse zugeschlagen. Rd. 20ns mehr CCX zu CCX im Chiplet. Ausserdem ist Chiplet zu Chiplet dann nochmals 10ns langsamer.

Aber gut. AMD kann hier ansetzen. So wie man es mit Zen3 macht mit ein CCX pro Chiplet ist eigentlich schon die beste Lösung. Also entweder künftig beim nächsten Shrink noch mehr 8C Chiplets an einen mächtigeren I/O Die oder mehr Kerne pro Die in je einem CCX. Wobei 16Threads an einem L3 schon sehr mächtig erscheint. Auf die Leistung eines 5950X im Desktop bin ich wirklich gespannt, ob man da Fälle findet bei denen die Die2Die Latenzen noch bemerkbar sind.
 
Aber gut. AMD kann hier ansetzen. So wie man es mit Zen3 macht mit ein CCX pro Chiplet ist eigentlich schon die beste Lösung. Also entweder künftig beim nächsten Shrink noch mehr 8C Chiplets an einen mächtigeren I/O Die oder mehr Kerne pro Die in je einem CCX. Wobei 16Threads an einem L3 schon sehr mächtig erscheint. Auf die Leistung eines 5950X im Desktop bin ich wirklich gespannt, ob man da Fälle findet bei denen die Die2Die Latenzen noch bemerkbar sind.

Auf solche Tests, die das zeigen wird man wahrscheinlich etwas warten müssen.

Ansonsten sollte man sich nicht nur an den Latenzen aufhängen AMD hat auch mächtig an den Ausführungseinheiten geschraubt.
 
Schau mal beim 3900X genau hin. Da sind jeweils nur 3 Cores gruppiert wegen 6+6 und je ein Core deaktiviert im CCX.
Die Varianzen entstehen ja auch durch routing traffic auf dem IF. Interessant ist daher auch der workload wie das Latenzdiagramm von Renoir zeigt.
Doppelposting wurde automatisch zusammengeführt:

Nach meinem Verständnis müssten die Latenzen eigentlich je Gruppe eine einheitliche Anzahl Takte sein, die Unterschiede in den ns können nur Messvarianzen oder dem anliegenden Takt geschuldet sein.
Hach, eben entdeckt da steht es ja unter dem Renoir Latenz-Diagramm bei Anandtech. Was du gesucht hast sind wohl diese Kennzahlen:
  • 0.9 nanoseconds for L1 (4 clks) up to 32 KB,
  • 3 nanoseconds for L2 (12-13 clks) up to 256 KB
  • 4-5 nanoseconds (18-19 clks) at 256-512 KB (Accesses starting to miss the L1 TLB here)
  • 9.3 nanoseconds (39-40 clks) from 1 MB to 4 MB inside the rest of the CCX L3
  • 65+ nanoseconds (278+ clks) from 6 MB+ moving into DRAM
 
Zuletzt bearbeitet:
Ich hätte nach der saure-Gurken-Zeit ab Bulldozer nicht gedacht, dass dieser Tag noch einmal kommen wird.

Chapeau, AMD!

Nur das mit der Verfügbarkeit scheint wieder ein Problem zu werden... :(
 
Sauber Leistung AMD! *great*

Verfügbarkeit und "Must Have" sind zwei Gesellen, welche sich meist eher schlecht vertragen *buck*

Ich kann mich da hoffentlich etwas zurücklehnen, weil Asus die Bios-Updates für die X470-Boards erst im Januar verteilen will *chatt*
 
Ich hätte nach der saure-Gurken-Zeit ab Bulldozer nicht gedacht, dass dieser Tag noch einmal kommen wird.
Oh ja, das war ne lange Durststrecke, inklusive der Rory Read Zeit, wo man kleine Chips herstellen wollte. Wie hieß die Firma nochmal, die sie damals übernahmen und mittlerweile abgewickelt wurde? Also das war damals echt alles Mist.
Nur das mit der Verfügbarkeit scheint wieder ein Problem zu werden... :(
Lieber so als gar kein 7nm-Herstellungsprozess ^^
Im Moment muss mans verstehen, der Zeitpunkt ist arg ungüstig, nicht nur nVidia und AMD selbst bringen neue GPUs raus - das wäre noch normal, nein auch noch die ganzen Konsolenchips. Dank Corona werden die PS5 und XBoxen den Händlern auch aus den Händen gerissen.
 
Du meinst Seamicro? Von der haben sie doch die Infinity Fabric..
 
Du meinst Seamicro? Von der haben sie doch die Infinity Fabric..
Ja genau so hießen die. Ne die Infinity Fabric baut ziemlich sicher auf hypertransport auf, die Freedom Fabric hatte nämlich keine Kohärenz, das war deren Pferdefuß. Man konnte damit keine großen Serversysteme mit einem gemeinsamen Speicherpool zusammenschließen, man hatte nur ne Gruppe CPUs in einem Gehäuse, die sich I/O teilen konnten.
 
Hmm, dann habe ich wohl was falsch verknüpft bei den beiden Fabrics..
 
Hmm, dann habe ich wohl was falsch verknüpft bei den beiden Fabrics..
Infinity Fabric ist eine Weiterentwicklung von AMDs Hypertransport.
Du meinst Seamicro? Von der haben sie doch die Infinity Fabric..
Ja genau so hießen die. Ne die Infinity Fabric baut ziemlich sicher auf hypertransport auf, die Freedom Fabric hatte nämlich keine Kohärenz, das war deren Pferdefuß. Man konnte damit keine großen Serversysteme mit einem gemeinsamen Speicherpool zusammenschließen, man hatte nur ne Gruppe CPUs in einem Gehäuse, die sich I/O teilen konnten.

Nicht ganz richtig und nicht ganz falsch.

Der Hypertransport war eine AMD Eigenentwicklung welche man im Hypertransport Consortium versucht hat auch mit anderen Herstellern zu teilen.
Diese Technologie war aber noch keine Mesh-Technik und hat nichts mit PCIe zu tun. Der HT-Link ist Point2Point und hatte control lanes und data lanes.

Die Seamicro-Technik hatte das besondere, dass man innerhalb der PCIe Spezifikationen einen Verbund von Komponenten in einer Art Mesh-Verknüpfung machen konnte. Die Seamicro Systeme hatten eine extrem gute Skalierbarkeit. Für das Patent hat AMD die gekauft, Charlie Demerjian von Semiaccurate hatte damals einen guten treffenden Artikel dazu geschrieben, dass das Intel noch mal weh tun sollte. Er sollte Recht behalten.

Infinity Fabric ist die Symbiose aus der SeaMicro Technik und dem Hypertransport Protokoll. Wichtig ist im Kern, dass das alles auf die PHY Technik von PCIe und AtomicOps aufsetzt. Das ist der Vorteil bei IF, das wird auch immer mit PCIe und den SerDes weiter entwickelt bzw. schneller, selbst wenn AMD am Protokoll selbst nicht zudem optimieren würde.
 
Vieles davon ist ja dann mit CCX und GenZ standardisiert worden. Vor allem die atomic read/writes über PCIe.
 
AMDs Cezanne-APU dürfte weit spannender werden, als bisher angenommen: diese dürfte vermutlich die aktuellen Zen3-CPUs im Gaming übertreffen, da die APU als Singe-Die noch niedrigere Latency und womöglich nochmal etwas mehr Boost-Takt erhalten. Cezanne dürfte klar in Richtung High-Performance-APU gehen, also ab 35Watt (für Gaming-Notebooks) über 65Watt (Mainstream-APU) und womöglich auch deutlich darüber (105W?) für High-Performance-Gaming als Konkurrent gegen den ebenfalls nur 8-Corer Rocket-Lake.
Das Low-Power-Segment dürfte diesmal einerseits Van-Gogh und zudem vermutlich Lucienne bedienen: AMD mischt womöglich Lucienne mit Cezanne, weil Cezanne womöglich in der Effizienz gar etwas schlechter als Lucienne ausfallen könnte, falls er tatsächlich als High-Performance-APU ausgelegt ist. Dann haben die Notebooks mit Lucienne mehr Laufzeit, die mit Cezanne aber weit höhere Performance, womit diese "Mischung" dann Sinn ergeben würde.
 
AMDs Cezanne-APU dürfte weit spannender werden, als bisher angenommen: diese dürfte vermutlich die aktuellen Zen3-CPUs im Gaming übertreffen, da die APU als Singe-Die noch niedrigere Latency und womöglich nochmal etwas mehr Boost-Takt erhalten.
Naja, ist das denn abseits vom Benchmark-Wichsen in irgendeiner Form relevant?
 
Was mich etwas irritiert: dass die "Roadmap" für Anfang 2021 gleich drei verschiedene APUs zeigt: Cezanne, Van Gogh und auch noch Lucienne:

84f6117a6880f3e2770437bd2831af68.png

Warhol erscheint in obiger Roadmap mit sonst dem gleichen "Inhalt" in der Roadmap. ABER: es fehlen Angaben zum Sockel/Speicher. Zudem würde nach obiger Roadmap Zen4 für Desktop erst in 2022 erscheinen. Hier drängt sich eigentlich auf, dass Vermeer und Warhol sich wohl höchst wahrscheinlich nur im I/O-Die unterscheiden werden: Vermeer benutzt noch das alte I/O-Die ohne USB4 und nur mit DDR4. Wie schon öfters erwähnt, liegt es auf der Hand, dass eine Highend-CPU bald kaum mehr ohne USB4 auskommt zudem vor allem die 12/16-Corer vom DDR5 besonders profitieren.

Zudem erwarte ich das neue I/O-Die in GFs neuem 12nm+-Prozess. Sieht man sich im Internet um, findet man Infos dazu, dass die ersten Tape-outs für GFs. 12nm+ Prozess erst in H2/2020 erfolgt sind und der Prozess erst in H1/21 in Massenfertigung geht. Zudem wurden von GF die Libraries für USB4 / DDR5 für den 12nm+-Prozess auch erst im September (?) angekündigt, die GF wohl insbesondere für AMD angeschafft haben dürfte.

Sobald DDR5 verfügbar wird, braucht AMD eine DDR5-Plattform für seine Highend-CPUs, die dann AM5 nutzen. AMD wird hier kaum bis 2022 warten und Intel den Vortritt mit einer DDR4-Plattform lassen. Zudem soll Cenzanne schon im Frühjahr USB4 haben. Womöglich mag das neue I/O-Die gleichzeitig als neuer Highend-Chipsatz (X670?) dienen können und DDR4 und DDR5 beherrschen. Würde gar eine Art Infinity-Cache für CPU (sofern das dann als L4) für das I/O-Die Sinn machen? Jedenfalls macht DDR5 für die 12- und 16-Corer sehr viel Sinn, sodass sich mit DDR5 die 12-/16-Corer dann erst richtig sinnvoll von Intels 8-Corer Rocket-Lake absetzen und AMD damit DDR5 jedenfalls vor Alder-Lake von Intel haben.

Last but not least: es hat nie geheißen, dass es keinen Zen3 auf AM5 geben wird, nur dass es Zen3 noch für AM4 geben wird und dass Zen4 ausschließlich dann auf AM5 erscheinen soll. Somit dürfte auch die Diskussion um einen Zen3+ womöglich erledigt sein: das "+" betrifft dann wohl eher nur das neue I/O-Die zusammen mit der neuen AM5-Plattform.
 
Zurück
Oben Unten