IBM Power10 Serverchip in 7nm Fertigung von Samsung

Complicated

Grand Admiral Special
Mitglied seit
08.10.2010
Beiträge
4.949
Renomée
441
Ein wahres technisches Meisterwerk, der IBM Power10 mit wahlweise 4xSMT oder 8x SMT:
Hier ein schöner Artikel mit den Eckdaten: https://www.nextplatform.com/2020/08/18/ibm-brings-an-architecture-gun-to-a-chip-knife-fight/
Pressemitteilung auf hier auf P3D: https://forum.planet3dnow.de/index....next-generation-ibm-power10-processor.436605/

Hier werden sicherlich auch x86-CPUs für Server von Intel und AMD etwas liefern müssen und sich nicht nur auf den Wettbewerb untereinander konzentrieren dürfen.

Zunächst mal ein schöner Dieshot:

202008171811101.jpg


Die Power ISA v3.1 ist von IBM, im Rahmen von OpenPOWER, offengelegt:

Der Chip hat 18 Mrd. Transistoren auf einer Größe von 602 mm² mit 18 Metal-Layern.
  • 15 SMT8 Kerne oder 30 SMT4 Kerne - es gibt 2 Versionen des Chip (oben die STM8 Version)
  • 1 SMT8- respektive 2 SMT4-Kerne sind deaktiviert und werden wohl, bei besserer Fertigung, später mit allen Kernen aktiv den Markt erreichen.
202008171820531.jpg



202008171825141.jpg


202008171828051.jpg


202008171830201.jpg


202008171815591.jpg


Bietet eine günstige Alternative zu HBM für billigen GDDR-Speicher mit der OMI-Anbindung.

202008171817331.jpg


Gemischte Workload-Szenarien mit unterschiedlichen Speicheranforderungen in einem System.

Die Folien stammen aus Anandtechs Liveblog zur Hot Chips 2020:
 
AMD ist mit Bulldozer schon einmal in diese Richtung gegangen, ich denke aber nicht dass sie nach den dort gemachten Erfahrungen nun schon wieder in diese Richtung (SMT4, SMT8) gehen wollen.
 
Bulldozer hatte kein SMT. AMDs erste Erfahrung mit SMT ist Zen.
Bulldozers CMT war anders aufgebaut: https://de.wikipedia.org/wiki/AMD_Bulldozer
Die von AMD bei Bulldozer eingeführte Clustered-Integer-Core-Architektur wurde ursprünglich von DEC entwickelt und erstmals 1996 mit der RISC-CPU Alpha 21264 vorgestellt.

Das Modul ist ein Kompromiss zwischen echtem Dualcore, wo jedem Thread alle Funktionseinheiten des Prozessorkerns zur Verfügung stehen, und einem Singlecore mit Simultaneous Multithreading (SMT). Das Konzept spart Fläche im Vergleich zum gewöhnlichen Dualcore. Ein Modul ist in verschiedene einfach und doppelt vorhandene Einheiten aufgeteilt, die sich zudem manche Ressourcen teilen. Es hat zwei Integer-Einheiten (Ganzzahl) und eine 256-Bit-Floatingpoint-(Gleitkommazahl)-Einheit, die bei Bedarf in zwei 128-Bit-FPUs aufgeteilt werden kann. Die Fetch-und-Decode-Einheit sind ebenfalls nur einfach vorhanden und teilen die Last auf die jeweiligen Einheiten auf. Ein Modul verfügt über einen 2-MB-Shared-L2-Cache, einen 16-kB-4-Wege-L1-Datacache pro Integercluster und einen 64-kB-2-Wege-L1-Instructionscache. Die beiden unabhängigen Integercluster sind jeweils mit zwei ALUs und zwei AGUs ausgestattet, was maximal vier Arithmetik- und Speicheroperationen pro Modul und Takt erlaubt.[6] Jedes Modul besitzt zwei symmetrische 128-Bit-FMAC-Gleitkommapipelines, die bei Bedarf in eine 256-Bit-breite Einheit umfunktioniert und damit für einen FMA-Befehl verwendet werden können. FMA rundet anders als der Multiply-Add-Befehl erst nach Ende der kompletten Berechnung das Ergebnis. Alle Module einer CPU teilen sich den ggf. vorhandenen L3-Cache sowie das Dual-Channel Interface.
Doppelposting wurde automatisch zusammengeführt:

Übrigens ist für bestimmte Workloads, die gut mit SMT skalieren, auch ein Vorteil bei den laufenden Kosten verbunden. Software-Lizenzen werden mitlerweile pro Kern berechnet und ein SMT4- oder SMT8-Design zählt auch als 1 Kern. Auf diese Weise spart man Unsummen pro Jahr bei großen Maschinen.
Das bedeute es gibt einen ziemlich großen Faktor im TCO wenn die Software mit einbezogen wird.
 
Zuletzt bearbeitet:
Sowas wie eine IF ist nicht verhanden dafür einen 4 mal so großen L2 Cache wie Zen2. 512 kB SMT2 bei 2 MB SMT8. Sehr ähnlich Bin gespannt wie der Vergleich zu Epyc ausfällt wie Leistungsaufnahme unterschiede bei verschiedenen Befehlssätzen, Taktung usw.

Interessant ist für mich auch das man einen 16 Core Die hat, kann durchaus sein das AMD da auch ein 16 Core Chiplet anstrebt.
 
Zuletzt bearbeitet:
Der Die ist mit über 600mm² in 7nm allerdings etwas groß für ein Chiplet. Allerdings scheint hier die Transistordichte auch nicht besonders hoch zu sein und das könnte dem Samsung Prozess geschuldet sein. 18 Mrd/600 mm² = 30 MTr/mm²
TSMC 7FF liegt bei 96,5 MTr/mm² und 5nm bei 173 MTr/mm²
 
[/QUOTE]
Übrigens ist für bestimmte Workloads, die gut mit SMT skalieren, auch ein Vorteil bei den laufenden Kosten verbunden. Software-Lizenzen werden mitlerweile pro Kern berechnet und ein SMT4- oder SMT8-Design zählt auch als 1 Kern. Auf diese Weise spart man Unsummen pro Jahr bei großen Maschinen.
Das bedeute es gibt einen ziemlich großen Faktor im TCO wenn die Software mit einbezogen wird.
[/QUOTE]

Da behaupte ich mal, dass das noch so ist. Ich bin mir ziemlich sicher, dass wenn SMT4/SMT8 in einem Prozessor im Massenmarkt vorhanden ist, dass dann findige Softwarefirmen diese auch als 4-/8-Kerne zählen werden.
 
Klar den selben move von Sockel zu Core werden sie sicher auch von Core zu Thread machen, sollte SMT4 und mehr Verbreitung finden.
 
Virtualisierung ist auch ein Thema für solche Maschienen. Gibt ja Anbieter bei denen man sich einen Virtuellen Rechner mieten kann. Kerne, Grafikleistung und Betriebsystem frei wählbar. Wieviel können da gleichzeitig laufen wenn sie dann nur noch SMT Kerne zugewiesen bekommen.
 
Zurück
Oben Unten