News AMD zeigt Prototyp mit gestapeltem L3-Cache

Auf Microcodeebene wird es da schon "Anpassungen" geben, aber auf Sicht der Software ist es natürlich egal.
 
Es braucht schon Anpassungen da der interne L3 Cache andere Latenzen hat als der drauf gepappte
Ebe ned....

Das Ding ist reiner SRAM und hängt am Cachecontroler des CCDs genauso wie der im CCD gelegene SRAM auch. Es gibt wohl tatsächlich keine unterschiede. Das Teil ist voll integriert über vias
 
Es sind ja auch die verkürzten Signalwege in der dritten Dimension über TSV, die das ganze kompensieren.
 
Wenn man HBM mit Chiplets genommen hätte, wären das auch wieder Wege die die Daten nehmen müssten. So ist man direkt an den Kernen. Wie groß das man den Speicher noch bekommt oder wie man ihn dann an die Kerne anbindet wird sich zeigen. IBM hat ja bekanntlich 8 fach SMT.

3 GB oder mehr auf einem Chiplet wäre schon fein. Auf einem läuft das OS komplett im L3, auf dem anderen dann ein Game.
 
Irgendwie kann ich noch nicht so recht glauben, dass die "strukturale" Siliziumzwischenlage die Wärmeabfuhr nicht negativ beeinflusst.
Da hätte man dann einen zusätzlichen Wärmeübergang zwischen CCX-Silizium über das strukturale Silizium zum Hitzeblech.
 
Silizium hat Wärmekoeffizient von ca. 160, Aluminium 230 und Kupfer grob 300, je nach Qualität.
Die OC-Varianten müssten also Kupferplättchen statt Silizium-Spacer anbieten. :D

Von wie vielen Micrometer reden wir denn da?

Wird da eigentlich wirklich etwas draufgeklebt oder das Fertigungsverfahren in den zusätzlichen Layern weiter betrieben?
 
Dass Silizium an der Stelle einfach schichtweise abgeschieden wird, ist natürlich auch denkbar.
Aber da weiß ich auch gerade nicht, wie hoch man damit kommt.
Auf dem Bild, wo Lisa Su die CPU präsentiert, soll aber angeblich das zusätzliche Silizium noch fehlen - und das spricht dann eher für eine nachträgliche Variante.

Klar, Silizium an sich ist noch ein halbwegs brauchbarer Wärmeleiter. Es ist der zusätzliche Übergang, der mir Kopfzerbrechen bereitet. Würde denn Si auf Si löten funktionieren?
 
Silizium und Alu/Kupfer sollte man nicht mischen, um von besserer Wärmeleitung zu profitieren. Die Ausdehnung bei Wärme ist auch unterschiedlich, was gefährlich werden kann.

Anderer Punkt: Wenn man Teile vom Cache im BIOS abschalten kann, muss es doch irgendeinen Grund (=Nachteil) geben, warum das sinnvoll ist. Welchen?

Noch ein anderer Punkt: rein wirtschaftlich verkonsumiert ein Chiplet mit acht Lagen EINEN in 6nm gefertigten Chiplet plus ACHT in 7nm gefertigte Flächenäquivalente des L3-Caches eines Chiplets. (Adam Riese)
In Zeiten der knappen Fertigungskapazitäten stellt sich mindestens die Frage, wie viel Mehrumsatz man mit den acht Lagen machen kann gegenüber dem Fall, dass man die Waferfläche für andere 7nm Produkte verwendet hätte.
Die zweite Frage ist die nach der Mehrperformance der verbauten Chipfläche. Die stellt sich aber nur indirekt.
Summa summarum vermute ich, dass die höheren L3-Stapel den Server Chips vorbehalten bleiben.
MfG
 
Stimmt, der Flächenverbrauch nimmt ordentlich zu.
Dafür dürfte aber der Yield ziemlich hoch sein und die Komplexität von SRAM dürfte auch unter der der Logikbereiche liegen. Da ist man womöglich mit weniger Fertigungsschritten unterwegs, was die Durchlaufzeit senken würde.
 
Die Yield Zahlen und auch die absoluten Stückzahlen je Wafer sind halt schon ziemlich gut bei so kleinen Dies.

Das hier ist ein 300mm Wafer mit 36mm2 Dies bei typischer Fehlerrate.

1622663186076.png


Und nochmal als Vergleich, so sieht ein 260mm2 chip (e.g. Rocket Lake) bei gleicher Fehlerrate aus

1622734879597.png
 
Zuletzt bearbeitet:
ein anderer Punkt: rein wirtschaftlich verkonsumiert ein Chiplet mit acht Lagen EINEN in 6nm gefertigten Chiplet plus ACHT in 7nm gefertigte Flächenäquivalente des L3-Caches eines Chiplets. (Adam Riese)
Der zusätzliche Cache verbraucht wesentlich weniger Fläche, da die auf eigenen Wafern gefertigt werde. Da kann man für Cache optimierte Libraries nehmen, die man für die Cpu- Dies nicht nutzen kann.
 
Ebe ned....
Das Ding ist reiner SRAM und hängt am Cachecontroler des CCDs genauso wie der im CCD gelegene SRAM auch. Es gibt wohl tatsächlich keine unterschiede. Das Teil ist voll integriert über vias
Das ist dann der eigentliche Knüller, ein L4-Cache müsste wieder extra abgefragt werden, womit die Speicherzugriffszeit - im non-Hit-Fall - weiter stiege. Ein Riesen-L3 ist da im Vorteil.
 
Die Yield Zahlen und auch die absoluten Stückzahlen je Wafer sind halt schon ziemlich gut bei so kleinen Dies.

Das hier ist ein 300mm Wafer mit 36mm2 Dies bei typischer Fehlerrate.

Anhang anzeigen 44589
Wieso verwendet man eigentlich runde Wafer?
Könnte man rechteckige Wafer verwenden würden mehr Dies drauf passen mit weniger Verlusten durch partial Dies.
 
Die Ingots werden gedreht während des Ziehens aus der Schmelze.
 
Dürfte aber unangenehm beim legen sein und unbequem beim brüten :)
 
@eratte
Nun, da gäbe es eine Lösung dazu.
Die Hühner einfach mit dem Wombat kreuzen oder dessen Darmgen einbringen, dann werden die Eier automatisch quadratische.
Wobei da das Problem aufkommen könnte, dass die Eier einfacher zerbrechen würden.
 
Die Frage habe ich mir allerdings auch Gestellt, gibt es einen besondern Grund wieso Wafer nicht Quadratisch oder Rechteckig sind dann müsste man viel weniger Wegwerfen usw.

mfg
 
Ja, monokristalline wafer können nicht anderst hergestellt werden. Zudem gibt es bei runden wafer handlingsvorteile.
 
Und zumindest vor EUV war/ist Optik zur Belichtung immer radialsymmetrisch, also mit einer runden Begrenzung. Ob sich das mit EUV ändert, entzieht sich meiner Kenntnis, würde mich aber wundern, wenn es so wäre.
 
Ich wäre nicht verwundert, wenn man da bei AMD nicht nur an Gamer sondern auch an Miner dachte. CPU-Cache ist da, gerade bei vielen Threads, DIE wichtige Größe!

Ein 16-Kerner/32 Threads Ryzen kommt da trotz 64MB L3-Cache je nach Algorithmus auch schnell an seine Grenzen.

PS: Ob man es mag oder hasst: Viele Computertechniksparten richten sich auf Mining aus: ASICs, GPUs, Festplatten, teilweise werden SSD-Hersteller z.B. auch gezwungen, ihre sehr optimistischen TBW-Angaben nach unten zu korrigieren, da man mit PoC doch schnell diese Grenze überschreitet - was bei normalen Heimgebrauch kaum möglich war.
 
Zuletzt bearbeitet:
Einfach den L3 bei den CCX weg lassen und dafür doppelt so viele Cores rein und darauf dann den L3 Chip pappen
Nicht nur da, generell gibt das AMD die Option bei zukünftigen Generationen Chipfläche beim teuren Prozess einzusparen indem man den L3 weglässt oder deutlich verkleinert und dann den Rest oben drauf packt.
Zumindest, wenn die Latenzen "normal" bleiben.

Zudem gibt es auch mehr Optionen die verschiedenen Modelle kosten- und flächeneffizient zu konfigurieren.
 
Anderer Punkt: Wenn man Teile vom Cache im BIOS abschalten kann, muss es doch irgendeinen Grund (=Nachteil) geben, warum das sinnvoll ist. Welchen?
Vielleicht für Benchmarks bzw. Evaluation, damit man mit dem Top-Modell auch kleinere Chips ansatzweise evaluieren kann.
SMT kann man ja auch häufig abschalten (Gut, dass kann Vorteile haben je nach Anwendung), in gewissen BIOS kann man die Anzahl CPU-Kerne eingrenzen (Das kann wiederum lizenztechnische Vorteile mit sich bringen bei Kommerz-Software).
 
Zurück
Oben Unten