AMD Interposer Strategie - Zen, Fiji, HBM und Logic ICs

Woerns · 02.06.2021

Da der neue Cache nur dieselbe Fläche belegt wie der schon vorhandene Cache und dabei doppelt so viele Zellen aufbringt, muss die neue Library der Knaller sein. Da stellt sich die Frage, warum AMD die nicht auch für das Chiplet selbst verwendet.
MfG

Pinnacle Ridge · 02.06.2021

Vielleicht verwendet AMD die dann bei kommenden Chips eh.

Captn-Future · 02.06.2021

Interessant wir das Verfahren doch erst, wenn zu je 2 Compute-Dies rechts und links ein Cache-Stapel von 4x32 MB in der Mitte auftürmt. Gerüchten zufolge soll der zusätzliche Cache aus 2 Lagen a 32MB bestehen die auf dem gleichgroßen On-Die-Cache aufgesetzt werden. Das "normale" Die soll deutlich dicker sein, daher die krumme Anzahl an Cache.

pipin · 02.06.2021

Woerns schrieb:
. Da stellt sich die Frage, warum AMD die nicht auch für das Chiplet selbst verwendet

Laut Ian Cutress hat AMD gesagt, dass das nicht geht, da die Libraries sehr Cache-spezifisch sind.
Imo sind Sram-Zellen auch die Sachen, die am besten skalieren, deswegen werden die ja auch immer bei den Spezifikationen der Nodes angegeben.

Woerns · 03.06.2021

Ich bin zu wenig Library Experte (=gar nicht), aber warum kann man die nicht mischen?
Sind diese Libraries mit Kochrezepten der Herstellung verbunden, die da z.B. sagen: jetzt wird eine Schicht Kupfer aufgedampft anstatt dass eine Schicht von irgendwas weg geätzt wird? Und deshalb kann man das auf einem Wafer nicht mischen?
MfG

BoMbY · 04.06.2021

Patent: DATA FLOW IN A DISTRIBUTED GRAPHICS PROCESSING UNIT ARCHITECTURE

Wenn ich das auf die schnelle so richtig verstehe: Das Bridge Chiplet enthält einen Shared L3 Cache, über welchen die GPU-Chiplets Informationen austauschen können. Das Memory-IO ist auf den GPU-Chiplets und skaliert deshalb mit deren Anzahl.

Via Reddit

Impergator · 10.06.2021

Es gibt neue Details zum V3D-Stacking: Es braucht gar keinen "glue" mehr, denn die Chips werden einfach aufeinander gelegt. Den Rest erledigen dann wohl die Van-der-Waals-Kräfte, also quasi kaltverschweißen.

BoMbY · 10.06.2021

Okay, so wirklich bewusst wurde mir das bisher nicht wie revolutionär das eigentlich ist, aber hier gab es auch schon etwas dazu:

AMD 3D Stacks SRAM Bumplessly

AMD recently unveiled 3D V-Cache, their first 3D-stacked technology-based product. Leapfrogging contemporary 3D bonding technologies, AMD jumped directly into advanced packaging with direct bonding and an order of magnitude higher wire density.

fuse.wikichip.org

Peet007 · 10.06.2021

Wie das erklärt wird, wird der Core Die um 95% abgeschliffen und dann der stakt L3 mit zwei Profilen einfach draufgelegt. Da kann man gespannt sein wie die Wärmeleitfähigkeit ist. Strukturbrüche bei der Kühler Montage oder beim Transport?

Complicated · 09.08.2021

TSMC Verfahren für SoIC Stacking:

TSMC-SoIC® - Taiwan Semiconductor Manufacturing Company Limited

3dfabric.tsmc.com

TSMC-SoIC™ services include custom manufacture of semiconductors, memory chips, wafers, integrated circuits, product research, custom design and testing for new product development, and technology consultation services regarding electrical and electronic products, semiconductors, semiconductor systems, semiconductor cell libraries, wafers, and integrated circuits.

What is SoIC?
SoIC is a key technology pillar to advance the field of heterogeneous chiplets integration with reduced size, increased performance. It features ultra-high-density-vertical stacking for high performance, low power, and min RLC (resistance-inductance-capacitance). SoIC integrates active and passive chips into a new integrated-SoC system, which is electrically identical to native SoC, to achieve better form factor and performance.

The key features of SoIC technology include:

Enables the heterogeneous integration (HI) of known good dies (KGDs) with different chip sizes, functionalities and wafer node technologies.
(a) SoC before chip partition; (b), (c), (d) Variant partitioned chiplets and re-integrated schemes enabled by SoIC technology

TSMC-SoIC® - Taiwan Semiconductor Manufacturing Company Limited

3dfabric.tsmc.com

TSMC SoIC-WoW technology realize heterogeneous and homogeneous 3D silicon integration through wafer stacking process. The tight bonding pitch and thin TSV enable minimum parasitic for better performance, lower power and latency as well as smaller form factor. WoW is suitable for high yielding nodes and the same die size applications or design, it even supports integration with 3rd party wafer.

Die Anwendung bei RDNA3 wird vermutet.

E555user · 10.08.2021

Das Schaubild b) entspricht den Zen3D V-Cache Lösungen. Die TSMC Darstellungen zeigen keine Lösung, mit der zwei gleiche GPU Dies mit einem weiteren Memory Die als Brücke verknüpft werden. Bei RDNA3 wäre deshalb meine Erwartungshaltung der Cache ist im Interposer und die GPU Dies werden auf dieser Basis verknüpft, statt dass ein Die zwei andere Dies überspannt. Das hätte vielleicht den Vorteil, dass die hitzigen hochtaktenden Chips etwas räumlichen Abstand bekommen könnten. Oder der Memory Die liegt genau zwischen den GPU-Dies, die Lanes zur Anbindung müssten dann Spiegelverkehrt angeordnet sein. Ich wüsste aber nicht ob das beim Cache-Design stören würde.

pipin · 11.08.2021

E555user schrieb:
Bei RDNA3 wäre deshalb meine Erwartungshaltung der Cache ist im Interposer und die GPU Dies werden auf dieser Basis verknüpft, statt dass ein Die zwei andere Dies überspannt. Das hätte vielleicht den Vorteil, dass die hitzigen hochtaktenden Chips etwas räumlichen Abstand bekommen könnten. Oder der Memory Die liegt genau zwischen den GPU-Dies, die Lanes zur Anbindung müssten dann Spiegelverkehrt angeordnet sein. Ich wüsste aber nicht ob das beim Cache-Design stören würde.

Das ist ja das Schöne, es wird bei den GPUs und auch bei den CPUs in Zukunft nicht nur spannend von der Performance, sondern auch von den technischen Lösungen.

Complicated · 11.08.2021

AMDs Patent gibt hier glaube ich eine gute Antwort:

Hier ist wohl das "active bridge-chiplet" der entscheidende Faktor.
https://www.freepatentsonline.com/y2021/0097013.html

Accordingly, as discussed herein, an active bridge chiplet deploys monolithic GPU functionality using a set of interconnected GPU chiplets in a manner that makes the GPU chiplet implementation appear as a traditional monolithic GPU from a programmer model/developer perspective. The scalable data fabric of one GPU chiplet is able to access the lower level cache(s) on the active bridge chiplet in nearly the same time as to access the lower level cache on its same chiplet, and thus allows the GPU chiplets to maintain cache coherency without requiring additional inter-chiplet coherency protocols. This low-latency, inter-chiplet cache coherency in turn enables the chiplet-based system to operate as a monolithic GPU from the software developer's perspective, and thus avoids chiplet-specific considerations on the part of a programmer or developer.

https://www.computerbase.de/2021-04/gpus-im-chiplet-design-amd-patente-bringen-den-cache-ins-spiel/

Der Cache wandert auf die Brücke

Die Besonderheit der „Active Bridge“ besteht darin, dass der L3-Speicher direkt auf der Brückenverbindung und nicht mehr auf dem entsprechenden GPU-Chiplet untergebracht werden soll. Das erklärt auch die aktive Auslegung der Brücke.

Zudem ist die Größe des L3-Cache damit durch die Größe der „Active Bridge“ beliebig skalierbar und ermöglicht Lösungen für Systeme respektive GPUs und Beschleunigern mit wenigen (1 bis 2) oder vielen (3 und mehr) GPU-Chiplets.

Der L3-Cache ist damit auch von der Hitzeentwicklung und dem Stromverbrauch der GPU-Chiplets entkoppelt. Ob der Cache damit tatsächlich besser gekühlt werden kann oder einfach die dezentrale Hitzeentwicklung von Vorteil ist, geht aus der Patentschrift indes nicht hervor.

Die "Active Bride´" ist unter den Chiplets verbaut wie ein Interposer.

Ich denke hier ist das von AMD angewandte Packaging-Verfahren von TSMC beschrieben:
https://www.anandtech.com/Show/Inde...age=1&slug=tsmcs-version-of-emib-lsi-3dfabric

Advanced%20Packaging%20Technology%20Leadership.mkv_snapshot_11.38_%5B2020.08.25_14.14.11%5D.jpg

InFO is TSMC’s fan-out packaging technology, where a silicon die from a wafer is picked out and placed on a carrier wafer, upon which the further bigger structures such as the copper RDL (Redistribution layer), and later the carrier substrate is built upon.

TSMC’s variant of InFO with integration of an LSI is called InFO-L or InFO-LSI, and follows a similar structure with the new addition of it integrating this new local silicon interconnect intermediary chip for communication between two chips.

Advanced%20Packaging%20Technology%20Leadership.mkv_snapshot_16.44_%5B2020.08.25_14.14.27%5D.jpg

Aus dem Startbeitrag eine Tabelle über Yieldraten bei der Herstellung von aktiven/passiven Interposern. Mit dem Wafer-On-Wafer Verfahren kann hier sicherlich noch mehr rausgeholt werden

Passive Bridge:

Aktive Bridge:

Active Bridge: 118

Peet007 · 11.08.2021

Den Cache kann man anscheinend sehr gut stapeln der braucht so gut wie nichts. Das sah zu Phenom Zeiten noch anders aus. Da waren zwischen Athlon mit deaktivierten L3 und dem normalen Phenom Welten im Verbrauch.

╭── Power Consumption ──────────────────────────┬────────────────────────────────────────────────╮
│ Total Core Power Sum │ 76.132 W │
│ VDDCR_SOC Power │ 17.879 W │
│ GMI2_VDDG Power │ 6.211 W │
│ L3 Logic Power │ 0.719 W + 0.723 W │
│ │ + 0.401 W + 0.398 W = 2.241 W │
│ L3 VDDM Power │ 0.362 W + 0.362 W │
│ │ + 0.361 W + 0.360 W = 1.444 W │
│ │ │
│ VDDIO_MEM Power │ 8.112 W │
│ IOD_VDDIO_MEM Power │ 0.000 W │
│ DDR_VDDP Power │ 4.799 W │
│ VDD18 Power │ 0.800 W │
│ │ │
│ Calculated Thermal Output │ 117.620 W │
├── Additional Reports ─────────────────────────┼────────────────────────────────────────────────┤
│ SoC Power (SVI2) │ 1.124 V | 15.903 A | 17.879 W │
│ Core Power (SVI2) │ 1.256 V | 83.018 A | 104.297 W │
│ Core Power (SMU) │ 104.297 W │
│ Socket Power (SMU) │ 132.087 W │
╰───────────────────────────────────────────────┴────────────────────────────────────────────────╯

Woerns · 11.08.2021

Ich finde es auch gerade sehr spannend, was uns die Modularisierung mit unterschiedlichen Herstellungsprozessen so bringt. Wir stehen mit AMDs Chiplet Technologie ja erst ganz am Anfang. Immerhin wissen wir, dass AMD angreift und früher als z.B. Intel auf den Zug aufgesprungen ist.
Aber man sollte nicht mehr denken, dass es monolithische SoCs zu entwickeln gibt. Gerade wird kolportiert, Intel wolle bei TSMC den 3nm Prozess nutzen. Da geht es m.E. eben nicht mehr um einen SoC sondern z.B. um Chiplets, die erst im Package mit z.B. SRAM, 3dXPoint, einer Photonic-Anbindung und dergleichen ihr Potential entfalten.
Richtig spannend ist es ja im GPU Bereich, welche Konzepte das Rennen machen.
Lassen wir uns überraschen.
MfG

E555user · 12.08.2021

Peet007 schrieb:
Den Cache kann man anscheinend sehr gut stapeln der braucht so gut wie nichts. Das sah zu Phenom Zeiten noch anders aus. Da waren zwischen Athlon mit deaktivierten L3 und dem normalen Phenom Welten im Verbrauch.

Denke auch dass die Cache-Technologien von AMD eine der wichtigsten Säulen für den Erfolg darstellen.

Vor Zen war man mit den Cache-Latenzen immer hinter Intel zurück. Man musste sich immer zwischen schnellen kleineren Caches oder gleichgrosse langsamere Caches entscheiden. Für Gaming, bzw. Latenz-kritische Anwendungen ein entscheidender Nachteil. Mittlerweile hat man zunächst mit Intel bei den Latenzen und Cachegrössen gleichgezogen und dann deutlich überhohlt. (Ich vermute z.B. bei Ur-Vega auf GloFo war der Cache zu klein, die V56 hatte oft die gleiche Leistung wie V64 weil der Shared Cache schon zu klein war, RDNA hat das Problem mit DCUs und zus. L1 gelöst, RDNA2 mit InfinityCache weiter optimiert).

Die Ursache liegt dabei stets in der Fertigungstechnologie, was dort möglich ist. Mit 3D Stapeln beim Cache kann der neuerdings immens gross werden ohne dabei langsamer zu werden. Über IF ist auch der verteilte Cache im McM immer noch schneller als ein RAM Zugriff über einen MemoryController.

Man kann AMD nur wünschen auch weiterhin ein glückliches Händchen zu haben um mit den fortschrittlichste Fertigungstechnologien die jeweils optimalen Kombinationen zu finden.

Ramius · 12.08.2021

Eines der Hauptproblem der CPUs vor Zen war der fehlende Micro-Op-Cache. Ohne diesen mussten die Instruktionen ständig wieder aus dem L1 gelesen und aufwändig dekodiert werden. Die Latenzen der Caches sind auch bei Zen, Zen+, Zen2 und Zen3 nicht berauschend.

E555user · 13.08.2021

Berauschend nicht, entscheidend ist, dass man trotz und mit der Grösse der Caches an Intel vorbei gezogen ist.

AMD Ryzen 9 5980HS Cezanne Review: Ryzen 5000 Mobile Tested

www.anandtech.com

AMD Zen 3 Ryzen Deep Dive Review: 5950X, 5900X, 5800X and 5600X Tested

www.anandtech.com

1619263685_598_Intel-Xeon-Ice-Lake-SP-features-of-these-server-CPUs.jpg

das war mit Nachteilen in der Fertigung zuvor nicht möglich. Bei GPUs zeichnet sich ein ähnliches Bild wobei der direkte Vergleich ungleich schwieriger ist.

SPINA · 20.11.2021

Hier geht es zwar um AMD, aber es passt thematisch ganz gut dazu. Intel gewährt einen Einblick in Fab 42:

Fab 42: Intel gewährt seltenen Blick hinter die Kulissen

Das US-Magazin CNET bekam die Möglichkeit, einen seltenen Blick in Intels Fab 42 in Arizona zu werfen und liefert interessante Fotos.

www.computerbase.de

Complicated · 03.03.2022

https://www.uciexpress.org/_files/ugd/0c1418_e7fa0820a56042d192bfa4e7d3493742.pdf

Aus dem Whitepaper:

UCIe_Briefing%20Presentation%20FINAL_05_575px.jpg

UCIe_Briefing%20Presentation%20FINAL_08_575px.jpg

Die ganze Präsentation bei Anandtech: https://www.anandtech.com/Gallery/Album/8123#1

Complicated · 06.10.2022

AMD Patent für GPUs mit aktivem Interposer veröffentlicht:

DIE STACKING FOR MODULAR PARALLEL PROCESSORS - ADVANCED MICRO DEVICES, INC.

<div p-id="p-0001">A multi-die parallel processor semiconductor package includes a first base IC die including a first plurality of virtual compute dies 3D stacked on top of the first base IC die. A f

www.freepatentsonline.com

Es gibt eine Zusammenfassung in beyond3D: https://forum.beyond3d.com/threads/...urs-and-discussion.62092/page-93#post-2267467

So we have:

active interposer die (AID)

shader engine die (SED)

multimedia and I/O die (MID)

graphics complex die (GCD)

AMD: RDNA 3 Speculation, Rumours and Discussion

The diagrams are now available, e.g.: In this diagram each AID features: cache (610) command processor (606) GDDR PHY (614) stacked upon each AID are shader engine dies and the AIDs are connected by bridge chiplets. The Multimedia and IO Die (708) is shown as a separate chiplet mounted on...

forum.beyond3d.com

In this diagram each AID features:

cache (610)

command processor (606)

GDDR PHY (614)

Complicated · 03.11.2022

Co-Prozessor Dispatching für GPU Workloads - Technologie für MCM-GPUs mit Multi-GCDs

US20210216368A1 - Hardware accelerated dynamic work creation on a graphics processing unit - Google Patents

A processor core is configured to execute a parent task that is described by a data structure stored in a memory. A coprocessor is configured to dispatch a child task to the at least one processor core in response to the coprocessor receiving a request from the parent task concurrently with the...

patents.google.com

The processing system 100 includes a graphics processing unit (GPU) 115 that is configured to render images for presentation on a display 120. For example, the GPU 115 can render objects to produce values of pixels that are provided to the display 120, which uses the pixel values to display an image that represents the rendered objects. Some embodiments of the GPU 115 can also be used for general purpose computing. In the illustrated embodiment, the GPU 115 implements multiple processing elements (also referred to as compute units) 125 that are configured to execute instructions concurrently or in parallel. The GPU 115 also includes an internal (or on-chip) memory 130 that includes a local data store (LDS), as well as caches, registers, or buffers utilized by the processing elements 125. The internal memory 130 stores data structures that describe parent tasks executing on one or more of the processing elements 125. In the illustrated embodiment, the GPU 115 communicates with the memory 105 over the bus 110. However, some embodiments of the GPU 115 communicate with the memory 105 over a direct connection or via other buses, bridges, switches, routers, and the like. The GPU 115 can execute instructions stored in the memory 105 and the GPU 115 can store information in the memory 105 such as the results of the executed instructions. For example, the memory 105 can store a copy 135 of instructions from a program code that is to be executed by the GPU 115.

The processing system 100 also includes a central processing unit (CPU) 140 that is connected to the bus 110 and can therefore communicate with the GPU 115 and the memory 105 via the bus 110. In the illustrated embodiment, the CPU 140 implements multiple processing elements (also referred to as processor cores) 143 that are configured to execute instructions concurrently or in parallel. The CPU 140 can execute instructions such as program code 145 stored in the memory 105 and the CPU 140 can store information in the memory 105 such as the results of the executed instructions. The CPU 140 is also able to initiate graphics processing by issuing draw calls to the GPU 115.

Dies soll weniger Platz einnehmen als der bisherige Re-Order Buffer bei RDNA2, könnte allerdings auch rein für CDNA genutzt werden.
Siehe Einleitung Patent im PDF: https://patentimages.storage.googleapis.com/bd/95/52/54cd3dc8932312/US20210216368A1.pdf

This invention was made with Government support under PathForward Project with Lawrence Livermore National Security (Prime Contract No. DE - AC52
07NA27344, Subcontract No. B620717 ) awarded by DOE . The Government has certain rights in this invention.

Ob das RDNA-tauglich ist, ist noch nicht sicher. Möglicherweise steckt es aber auch hinter dem OREO-Feature bei RDNA3
Siehe https://www.angstronomics.com/p/amds-rdna-3-graphics?s=31

One of the features in the RDNA 3 graphics pipeline is OREO: Opaque Random Export Order, which is just one of the many area saving techniques. With gfx10, the pixel shaders run out-of-order, where the outputs go into a Re-Order Buffer before moving to the rest of the pipeline in-order. With OREO, the next step (blend) can now receive and execute operations in any order and export to the next stage in-order. Thus, the ROB can be replaced with a much smaller skid buffer, saving area.

Complicated · 23.02.2023

AMD Lays The Path To Zettascale Computing: Talks CPU & GPU Performance Plus Efficiency Trends, Next-Gen Chiplet Packaging & More

AMD talked about the future of computing, laying out its CPU & GPU trends in terms of efficiency & performance during ISSCC 2023.

wccftech.com

The next-gen APU architecture features a mix of advanced 2D/2.5D/3D packaging technologies with a range of domain-specific accelerators, heterogenous compute cores, high-speed chip-to-chip interface (UCIe), Co-Package Optics, Memory layers, and more. In total, we can make up 13 chiplets on the top level but there could definitely be even more on the finalized version which we will see in the coming years.

Complicated schrieb:
Whitepaper UCIe

https://www.uciexpress.org/_files/ugd/0c1418_e7fa0820a56042d192bfa4e7d3493742.pdf

Die ganze Präsentation bei Anandtech: https://www.anandtech.com/Gallery/Album/8123#1

pipin · 23.02.2023

@Complicated

Bitte nach Möglichkeit keine Bilder fremder Webseiten per Link einfach einfügen. Bei Slides, deren IP eh nicht bei den Webseiten liegt, lieber diese kopieren und in das Posting einfügen.

Die ISSCC Slides gibt es komplett bei uns:

ISSCC 2023: AMD - Innovation for the Next Decade of Compute Efficiency - Planet 3DNow!

Auf Planet 3DNow! gibt es alle wichtigen Informationen fr AMD-User: News, Downloads, Support, Tests

www.planet3dnow.de

AMD Interposer Strategie - Zen, Fiji, HBM und Logic ICs

Grand Admiral Special

Vice Admiral Special

Moderation DC, P3DN Vize-Kommandant

Administrator

Grand Admiral Special

Grand Admiral Special

Lieutnant

Grand Admiral Special

Admiral Special

Grand Admiral Special

Admiral Special

Administrator

Grand Admiral Special

Admiral Special

Grand Admiral Special

Admiral Special

Commander

Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Administrator

Ähnliche Themen