AMD GCN4 (Polaris, Radeon 400/500) & GCN5 (Vega)

Spinnen wir mal ein bisschen:

Sagen wir die APUs von AMD werden die gleichen Chips wie die GPU nutzen (per Interposer), d.H. die GPUs sind mit diesem neuen Interconnect ausgestattet. Was würde AMD daran hindern z.B. zwei GPU-Dies auf einen Interposer zu packen? Das könnte erklären, warum es nur zwei bekannte Modelle gibt. Also könnte die neue Produktlinie vielleicht so aussehen:

Low-End: Polaris 10 mit GDDR5
Mid-Range: 2x Polaris 10 mit HBM1 auf Interposer
High-End: 1x Polaris 11 mit HBM2 auf Interposer

Angeblich soll ja der Interposer nicht so teuer sein (stand glaube ich bei SA).

Im Prinzip eine Interessante Idee, allerdings erwarte ich für den Low-End Bereich höchstens ein 128Bit GDDR5 Interface und im Mid-Range Bereich max. 256Bit GDDR5(X). Da HBM1 im Vergleich zu HBM2 keine Vorteile hat (wohl auch nicht im Preis), wird man den vermutlich überhaupt nicht mehr einsetzen sofern es nicht Probleme mit HBM2 gibt. 2 GPUs auf einem Interposer halte ich zumindest in dieser Generation und für den Massenmarkt für unwahrscheinlich. Die Technologie zu entwickeln, die es erlauben würde die beiden GPUs wie eine zu benutzen dürfte zu aufwendig sein. Was vielleicht möglich wäre, wären 2 High-End GPUs, die auf einem Interposer sitzen und sich den VRAM teilen. Die dafür notwendige Logik sollte wegen der APUs prinzipiell vorhanden sein. Diese Art Grafikkarten wären dann aber weiterhin auf CF angewiesen.
 
Was würde AMD daran hindern z.B. zwei GPU-Dies auf einen Interposer zu packen?
schlechte Skalierung. Solange man was integrieren kann, ist es sinnvoller. CPU und GPU in zwei Dies zu trennen ist ok, wenn man dann unterscheidliche Fertigungsverfahren nutzen und beide Chips so besser für ihre Aufgabe optimieren kann. Aber zwei kleine GPU nebeneinander ist nicht sinnvoll. Das macht man nur bei den Monster-High-End-Teilen, weil es da aufgrund der minimalen Produktionszahl nicht lohnt, einen Chips zu bauen. Die Probleme mit CF/Sli sind ja bekannt.
Wenn sich der Bedarf ergibt, mehr GPU-Power auf die APU zu pflanzen, kann man besser einfach das nächstgrößere GPU-Die nehmen.
 
Für VR könnte es schon interessant werden 2 Dies im CF auf einen Interposer zu pflanzen. Für jedes Auge eine GPU.
Zudem macht AMD ziemlich Dampf bei der Nutzung von Cohärenz, Multi-Threded Command Buffer, Async Shader etc. also alles was die Resourcen in paralleleln Systemen besser Ausnutzt. Da könnte CF wieder an Bedeutung gewinnen.
 
aber VR ist genau wie alles andere, was so als "next big thing" gehypt wird, nichts für den Mainstream, d.h. in APUs hat das nix zu suchen. Eine APU muß die vielen Spiele auf technisch älterem Niveau brauchbar bewältigen können.
 
schlechte Skalierung. Solange man was integrieren kann, ist es sinnvoller. CPU und GPU in zwei Dies zu trennen ist ok, wenn man dann unterscheidliche Fertigungsverfahren nutzen und beide Chips so besser für ihre Aufgabe optimieren kann. Aber zwei kleine GPU nebeneinander ist nicht sinnvoll. Das macht man nur bei den Monster-High-End-Teilen, weil es da aufgrund der minimalen Produktionszahl nicht lohnt, einen Chips zu bauen. Die Probleme mit CF/Sli sind ja bekannt.
Wenn sich der Bedarf ergibt, mehr GPU-Power auf die APU zu pflanzen, kann man besser einfach das nächstgrößere GPU-Die nehmen.

Warum sollte es nicht möglich sein, zwei Chips auf dem Interposer wie einen Chip in zwei Teilen zu behandeln,
also nicht wie unter Crossfire. Ich könnte mir vorstellen, dass die beiden GPU-Hersteller schon seit Jahren
an so einer Lösung arbeiten.

Im Prinzip funktioniert ja Crossfire ganz gut, obwohl die Signale "Lichtjahre" zu überwinden haben,
ganz anders als auf dem Interposer.
 
Die Kommunikation über einen Interposer ist immer noch etwas anderes als auf einem Die!
 
Nein, eigentlich nicht. Dafür ist der Interposer ja da. Mit dem neuen GMI/Interconnect Fabric sollte das prinzipiell möglich sein.
 
aber VR ist genau wie alles andere, was so als "next big thing" gehypt wird, nichts für den Mainstream, d.h. in APUs hat das nix zu suchen. Eine APU muß die vielen Spiele auf technisch älterem Niveau brauchbar bewältigen können.

Bei der APU besteht die Beschränkung durch die TDP. Da wären höchstens für Server eine APU mit 2GPU und 200W TDP denkbar.
Für Mainstream APU reicht auch ein GPU Chip um die TDP auszuschöpfen.
Denke ja nicht, dass AM4 für mehr als 120W spezifiziert wird.
 
[3DC]Payne;5066681 schrieb:
Du musst trotzdem aus dem Chip raus, so dass die Wege m WELTEN länger sind als wenn man intern bleibt.

Ja, ca. 1-2 cm durch Silizium dauert natürlich eine halbe Ewigkeit. So ungefähr 6.6712819×10^-11 Sekunden Latenz.
 
[3DC]Payne;5066681 schrieb:
Du musst trotzdem aus dem Chip raus, so dass die Wege m WELTEN länger sind als wenn man intern bleibt.
Das ist nicht wahr. Die Signalwege sind deutlich kürzer, da die TSVs wenige mm Weg haben von Transistor zu Interposer im Gegensatz zu einem Verlauf quer über den Chip bis zum SI bei herkömmlicher Verdrahtung.
Du hast schon Detailwissen darüber? Na dann mal her damit.
Hier findest du Grundwissen dazu: http://www.planet3dnow.de/vbulletin...terposer-Strategie-Zen-Fiji-HBM-und-Logic-ICs

Am ausführlichsten ist das wohl in diesem dort verlinkten PDF behandelt: https://www.apache-da.com/system/files/CPMT_OC_Apache_NChang_2011.pdf
Hier auch noch Erläuterungen zu den Leitungslängen: http://www.3dincites.com/2015/01/te...nterposer-based-memory-processor-integration/
 
Zuletzt bearbeitet:
Ja, ca. 1-2 cm durch Silizium dauert natürlich eine halbe Ewigkeit. So ungefähr 6.6712819×10^-11 Sekunden Latenz.

Im Vergleich zu den wenigen nm bis µm bei InChip-Verbindungen sind das Welten.

Das ist nicht wahr. Die Signalwege sind deutlich kürzer, da die TSVs wenige mm Weg haben von Transistor zu Interposer im Gegensatz zu einem Verlauf quer über den Chip bis zum SI bei herkömmlicher Verdrahtung.

Redest du über die Verbindung GPU-VRAM oder GPU-GPU? Im ersten Fall hast du sicherlich Recht, da der VRAM ja auf jeden Fall extern ist im Fall vom HBM allerdings "näher". Darum geht es hier allerdings gerade garnicht. Im Falle von zwei GPUs statt einer ist das anders. Statt einer Distanz von wenigen nm oder µm von einem Funktionsblock zum andern können es dann problemlos mehrere cm von einem Chip zum andern werden.

Natürlich kann man via Interposer ein sehr breitbandiges Interface mit niedriger Latenz implementieren. Im Vergleich zu einer InChip-Verbindung sind die Latenzen aber trotzdem noch um einige Größenordnungen höher. Die Daten müssen auf einem Chip erst serialisiert werden, dann übertragen und anschließend auf dem zweiten Chip zurückgewandelt werden. Von daher: Die Effizienz von CF zu steigern ist damit vielleicht möglich, zwei Chips einfach zu einem zusammenzufügen allerdings nicht.
 
Zuletzt bearbeitet:
Im Vergleich zu den wenigen nm bis µm bei InChip-Verbindungen sind das Welten.

Um das kurz zu überschlagen: Die Lichtgeschwindigkeit ist rund 3 x 10^8 m/s = 3x10^11 mm/s. Mit ein wenig Spielraum haben wir heute Taktfrequenzen von ~5x10^9 1/s. Also kann das Signal etwa 3x10^11/(5x10^9) = 60mm = 6cm zurücklegen. Ich bitte das zu verifizieren um einen Flüchtigkeitsfehler meinerseits auszuschließen.

Stimmt aber meine Rechnung, sind wir mit 6cm durchaus in den Dimensionsbereichen eines Interposers, also in dieser Hinsicht ginge das sehr wohl.

LG
 
Die Vakuumlichtgeschwindigkeit beträgt jenen Wert. In einem Medium, wie z.B. einem metallischen Leiter, musst Du noch durch den (wellenlängenabhängigen) Brechungsindex n>1 teilen. Nimm für Silizium einen Wert etwas > 3 an, dann hast Du eine Hausnummer.
MfG

--- Update ---

und lass die Nachkommastellen weg...

Nachtrag: Den Wert habe ich zu hoch abgeschätzt, nimm anstelle 3 etwa 1,5 für einen typischen Leiter. Damit bewegt sich die elektromagnetische Welle mit ca. 2/3 der Vakuumlichtgeschwindigkeit durch den Leiter.
MfG
 
Zuletzt bearbeitet:
das wären dann 2cm, für einen ganzen Takt. Also ist bei einem oder einem halben Zentimeter Unterschied das Signal schon asynchron und bei wenigen Millimetern schon so unsauber, daß die Taktfrequenz nicht sauber gehalten werden kann.
 
Im schlimmsten Fall bist Du bei 2-3 Nanosekunden Latenz durch einen Interposer, bei angenommenen 3% der Lichtgeschwindigkeit.
 
Und diese langen "Antennen" müssen auch noch getrieben werden. Bei solchen Frequenzen ist jedes noch so kleine zusätzliche Kapazität zu viel.
Also dass die "paar cm" zusätzliche Strecke kaum ins Gewicht fallen würden ist schon sehr ignorant.
 
Selbst wenn man 1.000-100.000 Nanosekunden (0,001 bis 0,1 ms) für das Sync opfern würde, dürfte das kaum ins Gewicht fallen für das Renderergebnis - davon wird der Anwender nichts merken.
 
Lassen wir uns überraschen. Vllt.
ist das ja der Grund, weshalb es
angeblich nur 2 neue GPU
geben soll.
 
unnötig, das zu verlinken, steht gar nichts Neues drin und viel ist eh nur Spekulation.
 
Zurück
Oben Unten