AMD Interposer Strategie - Zen, Fiji, HBM und Logic ICs

Da der neue Cache nur dieselbe Fläche belegt wie der schon vorhandene Cache und dabei doppelt so viele Zellen aufbringt, muss die neue Library der Knaller sein. Da stellt sich die Frage, warum AMD die nicht auch für das Chiplet selbst verwendet.
MfG
 
Interessant wir das Verfahren doch erst, wenn zu je 2 Compute-Dies rechts und links ein Cache-Stapel von 4x32 MB in der Mitte auftürmt. Gerüchten zufolge soll der zusätzliche Cache aus 2 Lagen a 32MB bestehen die auf dem gleichgroßen On-Die-Cache aufgesetzt werden. Das "normale" Die soll deutlich dicker sein, daher die krumme Anzahl an Cache.
 
. Da stellt sich die Frage, warum AMD die nicht auch für das Chiplet selbst verwendet
Laut Ian Cutress hat AMD gesagt, dass das nicht geht, da die Libraries sehr Cache-spezifisch sind.
Imo sind Sram-Zellen auch die Sachen, die am besten skalieren, deswegen werden die ja auch immer bei den Spezifikationen der Nodes angegeben.

 
Ich bin zu wenig Library Experte (=gar nicht), aber warum kann man die nicht mischen?
Sind diese Libraries mit Kochrezepten der Herstellung verbunden, die da z.B. sagen: jetzt wird eine Schicht Kupfer aufgedampft anstatt dass eine Schicht von irgendwas weg geätzt wird? Und deshalb kann man das auf einem Wafer nicht mischen?
MfG
 
Es gibt neue Details zum V3D-Stacking: Es braucht gar keinen "glue" mehr, denn die Chips werden einfach aufeinander gelegt. Den Rest erledigen dann wohl die Van-der-Waals-Kräfte, also quasi kaltverschweißen.
 
Okay, so wirklich bewusst wurde mir das bisher nicht wie revolutionär das eigentlich ist, aber hier gab es auch schon etwas dazu:

 
Wie das erklärt wird, wird der Core Die um 95% abgeschliffen und dann der stakt L3 mit zwei Profilen einfach draufgelegt. Da kann man gespannt sein wie die Wärmeleitfähigkeit ist. Strukturbrüche bei der Kühler Montage oder beim Transport?
 
TSMC Verfahren für SoIC Stacking:
TSMC-SoIC™ services include custom manufacture of semiconductors, memory chips, wafers, integrated circuits, product research, custom design and testing for new product development, and technology consultation services regarding electrical and electronic products, semiconductors, semiconductor systems, semiconductor cell libraries, wafers, and integrated circuits.

What is SoIC?
SoIC is a key technology pillar to advance the field of heterogeneous chiplets integration with reduced size, increased performance. It features ultra-high-density-vertical stacking for high performance, low power, and min RLC (resistance-inductance-capacitance). SoIC integrates active and passive chips into a new integrated-SoC system, which is electrically identical to native SoC, to achieve better form factor and performance.

The key features of SoIC technology include:
  1. Enables the heterogeneous integration (HI) of known good dies (KGDs) with different chip sizes, functionalities and wafer node technologies.
    (a) SoC before chip partition; (b), (c), (d) Variant partitioned chiplets and re-integrated schemes enabled by SoIC technology

SoIC-chips.jpg


TSMC SoIC-WoW technology realize heterogeneous and homogeneous 3D silicon integration through wafer stacking process. The tight bonding pitch and thin TSV enable minimum parasitic for better performance, lower power and latency as well as smaller form factor. WoW is suitable for high yielding nodes and the same die size applications or design, it even supports integration with 3rd party wafer.

WLSI_SoIC-WoW_1.png


Die Anwendung bei RDNA3 wird vermutet.
 
Zuletzt bearbeitet:
Das Schaubild b) entspricht den Zen3D V-Cache Lösungen. Die TSMC Darstellungen zeigen keine Lösung, mit der zwei gleiche GPU Dies mit einem weiteren Memory Die als Brücke verknüpft werden. Bei RDNA3 wäre deshalb meine Erwartungshaltung der Cache ist im Interposer und die GPU Dies werden auf dieser Basis verknüpft, statt dass ein Die zwei andere Dies überspannt. Das hätte vielleicht den Vorteil, dass die hitzigen hochtaktenden Chips etwas räumlichen Abstand bekommen könnten. Oder der Memory Die liegt genau zwischen den GPU-Dies, die Lanes zur Anbindung müssten dann Spiegelverkehrt angeordnet sein. Ich wüsste aber nicht ob das beim Cache-Design stören würde.
 
Bei RDNA3 wäre deshalb meine Erwartungshaltung der Cache ist im Interposer und die GPU Dies werden auf dieser Basis verknüpft, statt dass ein Die zwei andere Dies überspannt. Das hätte vielleicht den Vorteil, dass die hitzigen hochtaktenden Chips etwas räumlichen Abstand bekommen könnten. Oder der Memory Die liegt genau zwischen den GPU-Dies, die Lanes zur Anbindung müssten dann Spiegelverkehrt angeordnet sein. Ich wüsste aber nicht ob das beim Cache-Design stören würde.

Das ist ja das Schöne, es wird bei den GPUs und auch bei den CPUs in Zukunft nicht nur spannend von der Performance, sondern auch von den technischen Lösungen.
 
AMDs Patent gibt hier glaube ich eine gute Antwort:

Hier ist wohl das "active bridge-chiplet" der entscheidende Faktor.
https://www.freepatentsonline.com/y2021/0097013.html
Accordingly, as discussed herein, an active bridge chiplet deploys monolithic GPU functionality using a set of interconnected GPU chiplets in a manner that makes the GPU chiplet implementation appear as a traditional monolithic GPU from a programmer model/developer perspective. The scalable data fabric of one GPU chiplet is able to access the lower level cache(s) on the active bridge chiplet in nearly the same time as to access the lower level cache on its same chiplet, and thus allows the GPU chiplets to maintain cache coherency without requiring additional inter-chiplet coherency protocols. This low-latency, inter-chiplet cache coherency in turn enables the chiplet-based system to operate as a monolithic GPU from the software developer's perspective, and thus avoids chiplet-specific considerations on the part of a programmer or developer.

https://www.computerbase.de/2021-04/gpus-im-chiplet-design-amd-patente-bringen-den-cache-ins-spiel/
Der Cache wandert auf die Brücke

Die Besonderheit der „Active Bridge“ besteht darin, dass der L3-Speicher direkt auf der Brückenverbindung und nicht mehr auf dem entsprechenden GPU-Chiplet untergebracht werden soll. Das erklärt auch die aktive Auslegung der Brücke.

Zudem ist die Größe des L3-Cache damit durch die Größe der „Active Bridge“ beliebig skalierbar und ermöglicht Lösungen für Systeme respektive GPUs und Beschleunigern mit wenigen (1 bis 2) oder vielen (3 und mehr) GPU-Chiplets.

Der L3-Cache ist damit auch von der Hitzeentwicklung und dem Stromverbrauch der GPU-Chiplets entkoppelt. Ob der Cache damit tatsächlich besser gekühlt werden kann oder einfach die dezentrale Hitzeentwicklung von Vorteil ist, geht aus der Patentschrift indes nicht hervor.
Die "Active Bride´" ist unter den Chiplets verbaut wie ein Interposer.
7-630.50d4b26a.png

5-1080.34003ada.jpg


Ich denke hier ist das von AMD angewandte Packaging-Verfahren von TSMC beschrieben:
https://www.anandtech.com/Show/Inde...age=1&slug=tsmcs-version-of-emib-lsi-3dfabric
Advanced%20Packaging%20Technology%20Leadership.mkv_snapshot_11.38_%5B2020.08.25_14.14.11%5D.jpg

InFO is TSMC’s fan-out packaging technology, where a silicon die from a wafer is picked out and placed on a carrier wafer, upon which the further bigger structures such as the copper RDL (Redistribution layer), and later the carrier substrate is built upon.

TSMC’s variant of InFO with integration of an LSI is called InFO-L or InFO-LSI, and follows a similar structure with the new addition of it integrating this new local silicon interconnect intermediary chip for communication between two chips.

Advanced%20Packaging%20Technology%20Leadership.mkv_snapshot_16.44_%5B2020.08.25_14.14.27%5D.jpg


Aus dem Startbeitrag eine Tabelle über Yieldraten bei der Herstellung von aktiven/passiven Interposern. Mit dem Wafer-On-Wafer Verfahren kann hier sicherlich noch mehr rausgeholt werden :)
index.php


Passive Bridge:

AMD-GPU-Chiplets-FIG5.png


Aktive Bridge:
AMD-Active-Bridge-Chiplet-Patent-Fig5-768x494.png

Active Bridge: 118
 
Zuletzt bearbeitet:
Den Cache kann man anscheinend sehr gut stapeln der braucht so gut wie nichts. Das sah zu Phenom Zeiten noch anders aus. Da waren zwischen Athlon mit deaktivierten L3 und dem normalen Phenom Welten im Verbrauch.

╭── Power Consumption ──────────────────────────┬────────────────────────────────────────────────╮
│ Total Core Power Sum │ 76.132 W │
│ VDDCR_SOC Power │ 17.879 W │
│ GMI2_VDDG Power │ 6.211 W │
│ L3 Logic Power │ 0.719 W + 0.723 W │
│ │ + 0.401 W + 0.398 W = 2.241 W │
│ L3 VDDM Power │ 0.362 W + 0.362 W │
│ │ + 0.361 W + 0.360 W = 1.444 W │
│ │ │
│ VDDIO_MEM Power │ 8.112 W │
│ IOD_VDDIO_MEM Power │ 0.000 W │
│ DDR_VDDP Power │ 4.799 W │
│ VDD18 Power │ 0.800 W │
│ │ │
│ Calculated Thermal Output │ 117.620 W │
├── Additional Reports ─────────────────────────┼────────────────────────────────────────────────┤
│ SoC Power (SVI2) │ 1.124 V | 15.903 A | 17.879 W │
│ Core Power (SVI2) │ 1.256 V | 83.018 A | 104.297 W │
│ Core Power (SMU) │ 104.297 W │
│ Socket Power (SMU) │ 132.087 W │
╰───────────────────────────────────────────────┴────────────────────────────────────────────────╯
 
Ich finde es auch gerade sehr spannend, was uns die Modularisierung mit unterschiedlichen Herstellungsprozessen so bringt. Wir stehen mit AMDs Chiplet Technologie ja erst ganz am Anfang. Immerhin wissen wir, dass AMD angreift und früher als z.B. Intel auf den Zug aufgesprungen ist.
Aber man sollte nicht mehr denken, dass es monolithische SoCs zu entwickeln gibt. Gerade wird kolportiert, Intel wolle bei TSMC den 3nm Prozess nutzen. Da geht es m.E. eben nicht mehr um einen SoC sondern z.B. um Chiplets, die erst im Package mit z.B. SRAM, 3dXPoint, einer Photonic-Anbindung und dergleichen ihr Potential entfalten.
Richtig spannend ist es ja im GPU Bereich, welche Konzepte das Rennen machen.
Lassen wir uns überraschen.
MfG
 
Den Cache kann man anscheinend sehr gut stapeln der braucht so gut wie nichts. Das sah zu Phenom Zeiten noch anders aus. Da waren zwischen Athlon mit deaktivierten L3 und dem normalen Phenom Welten im Verbrauch.

Denke auch dass die Cache-Technologien von AMD eine der wichtigsten Säulen für den Erfolg darstellen.

Vor Zen war man mit den Cache-Latenzen immer hinter Intel zurück. Man musste sich immer zwischen schnellen kleineren Caches oder gleichgrosse langsamere Caches entscheiden. Für Gaming, bzw. Latenz-kritische Anwendungen ein entscheidender Nachteil. Mittlerweile hat man zunächst mit Intel bei den Latenzen und Cachegrössen gleichgezogen und dann deutlich überhohlt. (Ich vermute z.B. bei Ur-Vega auf GloFo war der Cache zu klein, die V56 hatte oft die gleiche Leistung wie V64 weil der Shared Cache schon zu klein war, RDNA hat das Problem mit DCUs und zus. L1 gelöst, RDNA2 mit InfinityCache weiter optimiert).

Die Ursache liegt dabei stets in der Fertigungstechnologie, was dort möglich ist. Mit 3D Stapeln beim Cache kann der neuerdings immens gross werden ohne dabei langsamer zu werden. Über IF ist auch der verteilte Cache im McM immer noch schneller als ein RAM Zugriff über einen MemoryController.

Man kann AMD nur wünschen auch weiterhin ein glückliches Händchen zu haben um mit den fortschrittlichste Fertigungstechnologien die jeweils optimalen Kombinationen zu finden.
 
Eines der Hauptproblem der CPUs vor Zen war der fehlende Micro-Op-Cache. Ohne diesen mussten die Instruktionen ständig wieder aus dem L1 gelesen und aufwändig dekodiert werden. Die Latenzen der Caches sind auch bei Zen, Zen+, Zen2 und Zen3 nicht berauschend.
 
Hier geht es zwar um AMD, aber es passt thematisch ganz gut dazu. Intel gewährt einen Einblick in Fab 42:

 
AMD Patent für GPUs mit aktivem Interposer veröffentlicht:
Es gibt eine Zusammenfassung in beyond3D: https://forum.beyond3d.com/threads/...urs-and-discussion.62092/page-93#post-2267467
So we have:
  • active interposer die (AID)
  • shader engine die (SED)
  • multimedia and I/O die (MID)
  • graphics complex die (GCD)
In this diagram each AID features:
  • cache (610)
  • command processor (606)
  • GDDR PHY (614)

    b3da048.png
 
Co-Prozessor Dispatching für GPU Workloads - Technologie für MCM-GPUs mit Multi-GCDs

  • The processing system 100 includes a graphics processing unit (GPU) 115 that is configured to render images for presentation on a display 120. For example, the GPU 115 can render objects to produce values of pixels that are provided to the display 120, which uses the pixel values to display an image that represents the rendered objects. Some embodiments of the GPU 115 can also be used for general purpose computing. In the illustrated embodiment, the GPU 115 implements multiple processing elements (also referred to as compute units) 125 that are configured to execute instructions concurrently or in parallel. The GPU 115 also includes an internal (or on-chip) memory 130 that includes a local data store (LDS), as well as caches, registers, or buffers utilized by the processing elements 125. The internal memory 130 stores data structures that describe parent tasks executing on one or more of the processing elements 125. In the illustrated embodiment, the GPU 115 communicates with the memory 105 over the bus 110. However, some embodiments of the GPU 115 communicate with the memory 105 over a direct connection or via other buses, bridges, switches, routers, and the like. The GPU 115 can execute instructions stored in the memory 105 and the GPU 115 can store information in the memory 105 such as the results of the executed instructions. For example, the memory 105 can store a copy 135 of instructions from a program code that is to be executed by the GPU 115.
  • The processing system 100 also includes a central processing unit (CPU) 140 that is connected to the bus 110 and can therefore communicate with the GPU 115 and the memory 105 via the bus 110. In the illustrated embodiment, the CPU 140 implements multiple processing elements (also referred to as processor cores) 143 that are configured to execute instructions concurrently or in parallel. The CPU 140 can execute instructions such as program code 145 stored in the memory 105 and the CPU 140 can store information in the memory 105 such as the results of the executed instructions. The CPU 140 is also able to initiate graphics processing by issuing draw calls to the GPU 115.
US20210216368A1-20210715-D00000.png


Dies soll weniger Platz einnehmen als der bisherige Re-Order Buffer bei RDNA2, könnte allerdings auch rein für CDNA genutzt werden.
Siehe Einleitung Patent im PDF: https://patentimages.storage.googleapis.com/bd/95/52/54cd3dc8932312/US20210216368A1.pdf
This invention was made with Government support under PathForward Project with Lawrence Livermore National Security (Prime Contract No. DE - AC52
07NA27344, Subcontract No. B620717 ) awarded by DOE . The Government has certain rights in this invention.
Ob das RDNA-tauglich ist, ist noch nicht sicher. Möglicherweise steckt es aber auch hinter dem OREO-Feature bei RDNA3
Siehe https://www.angstronomics.com/p/amds-rdna-3-graphics?s=31
One of the features in the RDNA 3 graphics pipeline is OREO: Opaque Random Export Order, which is just one of the many area saving techniques. With gfx10, the pixel shaders run out-of-order, where the outputs go into a Re-Order Buffer before moving to the rest of the pipeline in-order. With OREO, the next step (blend) can now receive and execute operations in any order and export to the next stage in-order. Thus, the ROB can be replaced with a much smaller skid buffer, saving area.
 
The next-gen APU architecture features a mix of advanced 2D/2.5D/3D packaging technologies with a range of domain-specific accelerators, heterogenous compute cores, high-speed chip-to-chip interface (UCIe), Co-Package Optics, Memory layers, and more. In total, we can make up 13 chiplets on the top level but there could definitely be even more on the finalized version which we will see in the coming years.
 
Zuletzt bearbeitet:
Zurück
Oben Unten