AMD EPYC Rome Server CPUs - Zen 2 in 7nm TSMC

Complicated

Grand Admiral Special
★ Themenstarter ★
Mitglied seit
08.10.2010
Beiträge
4.059
Renomée
270
System
Mein Laptop
Lenovo T470, Lenovo S540
Details zu meinem Desktop
Prozessor
AMD Ryzen 7 3700X
Mainboard
MSI X570-A PRO
Kühlung
AMD Wraith Prism
Speicher
16 GB (2x 8 GB) G.Skill TridentZ Neo DDR4-3600 CL16-19-19-39
Grafikprozessor
Sapphire Radeon RX 5700 Pulse 8GB PCIe 4.0
Display
27", Lenovo, 2560x1440
SSD
1 TB Gigabyte AORUS M.2 PCIe 4.0 x4 NVMe 1.3
HDD
2 TB WD Caviar Green EADS, NAS QNAP
Optisches Laufwerk
Samsung SH-223L
Gehäuse
Lian Li PC-B25BF
Netzteil
Corsair RM550X ATX Modular (80+Gold) 550 Watt
Betriebssystem
Win 10 Pro.
Es wird Zeit für einen Spekulationsthread für AMDs EPYC Version 2 mit dem Codenamen "Rome". Er wird in 7nm bei TSMC gefertigt und soll 2019 den Markt erreichen.
Mehr Details und Links sind der letzten News um geleakte Benchmarls von pipin zu entnehmen:
Angeblicher Benchmark eines AMD EPYC “Rome” 7nm-Prozessors
“Rome” ist der Codename der in 7-nm-Technik gefertigten Serverprozessoren mit Zen-2-Kernen, bei denen – gegenüber den aktuellen AMD Epyc-Serverprozessoren (“Naples”) mit bis zu 32 Kernen, 64 Threads und 64 MiB L3-Cache – die Anzahl der Kerne auf 64 (128 Threads je CPU) verdoppelt sowie eine Vervierfachung der L3-Cachegröße auf nicht weniger als 256 MiB umgesetzt werden soll. Zudem könnte statt Achtkanal-DDR4-2667-RAM dann Achtkanal-DDR4-3200 unterstützt werden. In Sachen PCIe-Lanes bleibt es wohl bei 128 Stück, dann allerdings nicht mehr nach Spezifikation 3.0, sondern 4.0 mit verdoppelter Transferrate.
 

Pinnacle Ridge

Commodore Special
Mitglied seit
04.03.2017
Beiträge
437
Renomée
1
Semiaccurate geht davon aus, daß I/O in eine eigene Die wandern wird.
64C Rome soll somit aus 9 Dice bestehen.

hthtrhhthfth.jpg
 

BoMbY

Grand Admiral Special
Mitglied seit
22.11.2001
Beiträge
4.994
Renomée
244
Standort
Aachen
System
Details zu meinem Desktop
Prozessor
Ryzen 3700X
Mainboard
Gigabyte X570 Aorus Elite
Kühlung
Noctua NH-U12A
Speicher
2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
Grafikprozessor
RX 5700 XTX
Display
Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
SSD
AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
Optisches Laufwerk
Sony BD-5300S-0B (eSATA)
Gehäuse
Phanteks Evolv ATX
Netzteil
Enermax Platimax D.F. 750W
Betriebssystem
Windows 10
Webbrowser
Firefox
Das Bild ist von irgendeinem Chinesen von Chiphell, und das macht so absolut keinen Sinn.
 

Pinnacle Ridge

Commodore Special
Mitglied seit
04.03.2017
Beiträge
437
Renomée
1
Wie sollte man 8 Dice sonst mit einer I/O-Die verbinden?

Die Proportionen passen halt nicht, eine I/O-Die wäre sicher nicht so viel größer als eine CPU-Die.
 

MagicEye04

Grand Admiral Special
Mitglied seit
20.03.2006
Beiträge
10.678
Renomée
108
Standort
oops,wrong.planet..
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
  • BOINC Pentathlon 2013
  • BOINC Pentathlon 2014
  • BOINC Pentathlon 2015
  • BOINC Pentathlon 2016
  • BOINC Pentathlon 2017
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2019
  • SETI@Home Wow!-Event 2019
  • SETI@Home Intel-Race II
  • BOINC Pentathlon 2020
Mein DC
Aktuelle Projekte
Seti,WCG,Einstein + was gerade Hilfe braucht
Lieblingsprojekt
Seti
Meine Systeme
R7-1700+GTX1070ti,R7-1700+RadeonVII, FX-8350+GTX1050ti, X4-5350+GT1030, X2-240e+RX460
BOINC-Statistiken
Folding@Home-Statistiken
System
Mein Laptop
Dell Latitude E7240
Details zu meinem Desktop
Prozessor
R7-1700 (3G@0,94V) - 2x
Mainboard
Asus Prime B350M-A
Kühlung
TR Macho - AMD Wraith stealth
Speicher
2x8GiB Corsair LPX2400C14 - 2x8GiB DDR4-3200 crucial CL16
Grafikprozessor
Radeon VII - GTX1070ti
Display
61cm LG M2452D-PZ - 50cm Philips 200W
SSD
Crucial MX300-275GB - Samsung 840pro 128GB
HDD
Seagate 7200.14 2TB - Seagate 7200.12 1TB (jeweils eSATAp)
Optisches Laufwerk
LG DVDRAM GH24NS90
Soundkarte
onboard
Gehäuse
Nanoxia Deep Silence1 - Lian-Li PC-G7A
Netzteil
BeQuiet StraightPower 10 400W - E7 400W
Betriebssystem
Ubuntu
Webbrowser
Feuerfuchs
Verschiedenes
5x Nanoxia Lüfter (120/140mm) , Festplatten in Bitumenbox

BoMbY

Grand Admiral Special
Mitglied seit
22.11.2001
Beiträge
4.994
Renomée
244
Standort
Aachen
System
Details zu meinem Desktop
Prozessor
Ryzen 3700X
Mainboard
Gigabyte X570 Aorus Elite
Kühlung
Noctua NH-U12A
Speicher
2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
Grafikprozessor
RX 5700 XTX
Display
Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
SSD
AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
Optisches Laufwerk
Sony BD-5300S-0B (eSATA)
Gehäuse
Phanteks Evolv ATX
Netzteil
Enermax Platimax D.F. 750W
Betriebssystem
Windows 10
Webbrowser
Firefox
Memory Controller hat man sicher weiter auf der CPU, genauso braucht man da immer noch die Interconnects.
 

Woerns

Grand Admiral Special
Mitglied seit
05.02.2003
Beiträge
2.444
Renomée
39
Das hieße ja nach Adam Riese ca. 8 Kerne auf einem Dice, macht 64 Kerne auf dem Neunerpack, also zusammen 128 Threads. Da hätte ich pro Dice mehr erwartet. Oder der Dice ist einfach so winzig.
MfG
 

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar
So ein Dice könnte <50mm² sein.

Habe in der Richtung auch schon was rumgespielt.
Schaut euch mal den 32 Kern Threadripper an, Ich habe im Schema mal die Einheiten weggestrichen, die nicht verwendet werden.
Threadripper W markiert.png
Die oberen beiden Chips sind lustig, außer CCX und den IFOPs wird nichts verwendet. Da kann AMD also sogar Chips einsetzen, die einen Fehler im Memmory Controller oder bei den PCIe Lines haben. Chips, die sonst direkt in die Tonne gehen.

Bei Rome könnte man auf das gleiche Prinzip setzen, nur CCX und IFOP in einem Chip in 7nm.
Im Prinzip dann also sowas für Rome, für Threadripper entsprechend nur halb soviel MC und PCIe:
rome.png
Interessant wäre auch, dass für einen 16, 24, 32... Kern Prozessor nur die benötigten Anzahl an 8 Kern Chiplets bestückt werden müßten.
Selbst wenn nach der Bestückung sich welche als Defekt herausstellen (schlechte verbindung, Lötung) können diese sicher abgeschaltet und ROME mit weniger Kernen verkauft werden. Nahezu keine Siliziumverschwendung.

--- Update ---

Für AM4 bin ich mir nicht sicher, ob sich das Chiplet Design lohnt. Ein Monolithoscher Chip, Picasso?, wird sicherlich kommen.
Aber ob jetzt ein Zeppelin Nachfolger mit mehr Kernen ohne Gpu kommt oder sowas?
am4.png
Wer weiß. Immerhin könnte der i/O Chip auch eine kleine GPU und MultiMedia Einheit enthalten und extern werden 1 oder 2 Chiplets für 8 oder 16 Kern AM4 CPUs angeflanscht.
Ebenso könnte ich mir vorstellen, dass ein Core Chiplet und ein GPU Chiplet mit HBM platz finden könnte. Für Notebook und Embedded wäre jedenfalls ein Chip interessant, der keinen externen Speicher mehr benötgte.

Lassen wir uns überraschen.
 
Zuletzt bearbeitet:

Pinnacle Ridge

Commodore Special
Mitglied seit
04.03.2017
Beiträge
437
Renomée
1
Der L3-Cache soll sich vervierfachen, also eine Verdoppelung pro Kern.
 

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar
Überlegt euch mal, wie es mit der Speicheranbing in meinem obigem Fall aussehen würde. Kein Routen über andere Chips außer I/O. Jedem Kern steht gleichberechtigt der volle Speicher zur Verfügung. Zudem könnte der I/O auch noch L4 Cache enthalten und auf den CCX fände sich auch noch etwas mehr Platz für L3 Cache.
Eine 64 Core CPU mit eiger Custom Logik? Kein Problem, wird ein entsprechend billiger Custom I/O eingesetzt.
 

Pinnacle Ridge

Commodore Special
Mitglied seit
04.03.2017
Beiträge
437
Renomée
1
Die APU könnte in 7nm auch 8 Kerne bekommen, dann kann man AM4 nur mit der APU komplett abdecken.

Bei TR4 gibt es dann wie üblich ein MCM mit 1-4 CPU-Dice und teildefekter I/O-Die, weil man ja nur 4 DDR-Channel benötigt.
 

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar
Nicht ganz, die APU ist relativ groß und dürfte erst Ende 2019 in Massenproduktion gehen, eventuel erst mit EUV wegen den Kosten.
Bis dahin muß AMD noch was bringen, dass Intel den Stinkefinger zeigen könnte. Bei entsprechendem Design sollte 8 - 16 Kern 5GHz in 7nm machbar sein.
Wir dürfen halt nicht vergessen, dass die Systeme durch Ihre TDP eingeschränkt sind. 105W AM4, 180W/240W TR, Server weiß ich nicht. Zudem ist auf die verfügbare Bandbreite zu achten, was überhaupt Sinnvoll verbaut werden kann. Sieht man ja beim RavenRidge mit 11CUs.
 

Pinnacle Ridge

Commodore Special
Mitglied seit
04.03.2017
Beiträge
437
Renomée
1
Sollte eine 8C APU in 7nm nicht viel kleiner als Raven Ridge sein?
Also unter 150mm².
 

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar
Ja, sollte was kleiner sein. In welcher Größenordnung liegt eigentlich Apples Chip? Aber der wird in 800€ Smartphones verbaut und nicht als Massenware als 100€ APU abgegeben. Dieser erste 7nm Prozess ist noch sehr aufwändig wegen der vielen Masken, dementsprechend schlecht dürfte der Yield sein.
Deswegen flipp ich ja fast aus, wenn ich daran denke, dass ROME CPU 8 Kern Chiplett grade mal 50mm² haben könnte.
 

Pinnacle Ridge

Commodore Special
Mitglied seit
04.03.2017
Beiträge
437
Renomée
1
Mit 64MB L3-Cache soll eine Die bei 50mm² liegen oder hast du da mit weiterhin 16MB gerechnet?

Teuer wird 7nm sicher, deswegen wohl auch der Refresh von Raven Ridge.
 

HalbeHälfte

Vice Admiral Special
Mitglied seit
30.07.2006
Beiträge
606
Renomée
8
Ja, sollte was kleiner sein. In welcher Größenordnung liegt eigentlich Apples Chip? Aber der wird in 800€ Smartphones verbaut und nicht als Massenware als 100€ APU abgegeben. Dieser erste 7nm Prozess ist noch sehr aufwändig wegen der vielen Masken, dementsprechend schlecht dürfte der Yield sein.
Deswegen flipp ich ja fast aus, wenn ich daran denke, dass ROME CPU 8 Kern Chiplett grade mal 50mm² haben könnte.
Wird das nicht irgendwann/bereits/langsam :) zum Problem mit der Wärme? Ja, ich weiß, braucht weniger Strom... wenn die Leistung gleich geblieben wäre ;)

Weil selbst wenn man das halt auf die Dices verteilt, man hat einfach nur bisschen mehr wiedermal, nochmals kleinere Hotspots. Auf dem einzelnen Die ist ja die Gegend um die ALUs das heisseste oder? Und die werden quasi so warm wie davor ;) Die kriegen mit 7nm mehr Takt und müßen allgemein mehr ackern (IPC). Wird das nicht so langsam übel immer kleinere "Punkte" zu kühlen?

Ich rede jetzt aber nicht mit leicht erhobenem Finger ;) Die Fragen sind nicht rhetorisch. Ich weiß es halt nicht.
 

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar
War nur ne Hausnummer.
Laut Wikichips 14nm:
CCX
44 mm² area
L3 8 MiB; 16 mm²
Für 7nm würde ich mit der Hälfte rechnen. Machte dann mit 64MB L3: 2 * 22 + 8*8 + ca. 10mm² uncore = 118mm².
Wäre immer noch klein im Verhältnis zu einem "doppeltem Zeppelin".

--- Update ---

Wärme: Das ist ja das hüpfende Komma. Durch den kleineren Prozess kann man bei gleichem Takt weniger verbrauchen oder bei gleichem Verbrauch höher takten.
Da liegt es am Design in welche Richtung man geht. Entsprechend muß man die Hotspots designen. Auf den richtigen Kompromiss kommt es drauf an.

Du meinst aber wahrscheinlich, dass die Wärme / Kern sich in einer immer kleineren Fläche konzentriert. Wie oben gesagt, wird zum Teil durch das Design aufgefangen, Geringerer Verbrauch bei gleichem Takt führt dann zur gleichen Wärmeproduktion/Fläche.
Noch scheint es also machbar zu sein, die Wärme entsprechend abzuführend damit es bei Excel nicht zur Kernschmelze kommt.
 

HalbeHälfte

Vice Admiral Special
Mitglied seit
30.07.2006
Beiträge
606
Renomée
8
Ich glaub für Excel braucht man nicht unbedingt nach einem Zen2 zu lechzen.

Du meinst aber wahrscheinlich, dass die Wärme / Kern sich in einer immer kleineren Fläche konzentriert.
Jep. Danke.

Ob bzw. wie gut es machbar ist werden wir ja noch sehen. Aber wenn man das im Design abfängt, entfernt man sich wohl vom Optimum und streckt bzw. verteilt die entsprechenden... Transistorneste :D D.h. man macht ja bereits Kompromisse. Ich bin wirklich ziemlich gespannt.
Auch wenn von Packdichte her TSMC 7nm, klasssich gesehen, eigentlich eher 10.7 nm wären ;)

Ich glaub schon bei 12nm gibts NICHTS auf den Chips was 12nm klein wäre.

Geringerer Verbrauch bei gleichem Takt führt dann zur gleichen Wärmeproduktion/Fläche
Ich glaub eher weniger, daß Zen2 weniger Takt haben wird als Zen1 ;)

Das ganze jetzt gilt natürlich nicht insbesondere dem Zen2. Die Fragen sind allgemeiner Natur. Ja nun. Vega20 wird ja auch irgendwie damit klar kommen. Stimmt schon.
 
Zuletzt bearbeitet:

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar
Ich glaub für Excel braucht man nicht unbedingt nach einem Zen2 zu lechzen.
Glaubst du. Mein letzter Chef war total Happy, dass ich sein Excel sheet mit etwas VBA programmierung mal flüssig zum laufen brachte.
Da kaufen die Manager lieber den Schnellsten und teuersten Laptop anstatt mal nen Programmierer ihre Cheets etwas optimieren zu lassen.
 

Stefan Payne

Grand Admiral Special
Mitglied seit
17.11.2001
Beiträge
5.265
Renomée
50
System
Details zu meinem Desktop
Die Proportionen passen halt nicht, eine I/O-Die wäre sicher nicht so viel größer als eine CPU-Die.
Das Problem ist auch, dass man den I/O Kram nicht mehr sinnvoll verkleinern kann, da die Stromstärken, die benötigt werden, die Strukturbreite vorgeben. Nd da ist man schon am unteren Ende.
Den Logik Teil kann man noch verkleinern, die PHYs aber kaum.
 

HalbeHälfte

Vice Admiral Special
Mitglied seit
30.07.2006
Beiträge
606
Renomée
8
Woraus ergibt sich das denn? (die benötigten Stromstärken)

Man sollte aber auch nicht ausblenden, daß ebenfalls nach neuen Materialien (Dotierungen) gesucht wird. Das kann bei den PHYs noch bisschen Spielraum ergeben was Strukturbreiten angeht.
Ich meine Intel experimentiert u.a. auch mit Elementen die nicht noch und nöcher besser leiten, sondern eben robuster sind was Stromstärken angeht. Und das wird nicht nur Intel machen ;)
 
Zuletzt bearbeitet:

amdfanuwe

Grand Admiral Special
Mitglied seit
24.06.2010
Beiträge
2.243
Renomée
34
System
Details zu meinem Desktop
Prozessor
4200+
Mainboard
M3A-H/HDMI
Kühlung
ein ziemlich dicker
Speicher
2GB
Grafikprozessor
onboard
Display
Samsung 20"
HDD
WD 1,5TB
Netzteil
Extern 100W
Betriebssystem
XP, AndLinux
Webbrowser
Firefox
Verschiedenes
Kaum hörbar

HalbeHälfte

Vice Admiral Special
Mitglied seit
30.07.2006
Beiträge
606
Renomée
8
Na denn. Wobei PCIe4.0 dem wieder bisschen zuarbeitet (Signalpegel) und DDR4 an sich ja auch. Ich denke reale 10nm (REAL ;)) kriegen wir da noch hin, wenn es mal soweit ist.
 

BoMbY

Grand Admiral Special
Mitglied seit
22.11.2001
Beiträge
4.994
Renomée
244
Standort
Aachen
System
Details zu meinem Desktop
Prozessor
Ryzen 3700X
Mainboard
Gigabyte X570 Aorus Elite
Kühlung
Noctua NH-U12A
Speicher
2x16 GB, G.Skill F4-3200C14D-32GVK @ 3600 16-16-16-32-48-1T
Grafikprozessor
RX 5700 XTX
Display
Samsung CHG70, 32", 2560x1440@144Hz, FreeSync2
SSD
AORUS NVMe Gen4 SSD 2TB, Samsung 960 EVO 1TB, Samsung 840 EVO 1TB, Samsung 850 EVO 512GB
Optisches Laufwerk
Sony BD-5300S-0B (eSATA)
Gehäuse
Phanteks Evolv ATX
Netzteil
Enermax Platimax D.F. 750W
Betriebssystem
Windows 10
Webbrowser
Firefox
Es spricht eigentlich nichts dagegen einen Teil eines Dies mit fetteren Strukturen zu designen, als den Rest. Klar, ein eigener I/O Die macht für einen Teil sicher Sinn, aber es bleibt dabei das ein Teil des I/O ehh bleiben muss. Infinity Fabric wird über Multi-PHY-Muxing realisiert, und das braucht man auch weiterhin, also bleibt auch PCIe auf dem eigentlich Die. Und genauso werden die Memory Controller und DDR4-PHYs eher nicht ausgelagert, weil das die Latenz erhöht. Bleibt also nur noch der Kleinkram wie USB, Audio, Netzwerk, etc. für den eigenen I/O-Die, aber das lohnt sich kaum dafür einen eigenen Chip zu designen. Ergo: Ich glaube nicht an diese Geschichte.

Edit: Abgesehen davon gibt es den DesignWare Multi-Protocol 25G PHY bereits in TSMC 7nm, und das wird vermutlich ziemlich genau das sein was bei der nächsten Generation verwendet wird.
 
Zuletzt bearbeitet:
Oben