FUSION AMD's neue Klasse von x86er

Status
Für weitere Antworten geschlossen.
Eine GESAMTE diskrete Redwood-Notebook-Graka auf altem 40nm-Prozess mit 650Mhz brauch z.B. nur bis zu 19Watt, siehe hier.

Wenn dann die iGPU von Llano bei nur 400 Shader keine 1000Mhz im 95-Watt-Llano machen sollte, dann hat AMDs Umsetzung einer GPU in 32nm-HKMG-SOI auf ganzer Linie versagt, scheit die GPU zudem auch noch übermäßig viel Diesize zu verbrauchen, sodass sie vermutlich kaum kleiner sein dürfte, als im 40nm-Prozess.

Sollte dem so sein, kann man absehen, dass auch der Llano-Nachfolger in bulk, also 28nm-HKMG kommen wird. Nur mit welchem Core?
 
Man braucht hierzu nur einen alten Redwood mit 500Mhz zum Vergleich heranziehen, wie wenig Energie dieser braucht, obwohl "alter" 40nm-Prozess und kein HKMG. Oder darf die 400Shader-iGPU in 32nm-HKMG-SOI nur <10Watt verbrauchen? Für einen 25W-Llano mag das Sinn machen, aber nicht für einen 95Watt-Llano.

Hier noch der Link, wie wenig eine GESAMTE diskrete Notebook-Graka mit dem 400-Shader-Redwood selbst bei 650Mhz max verbraucht: 19Watt!
Irgendwann kommt auch ein Saturierungseffekt beim Speicherinterface hinzu und sowohl dadurch als auch durch den schrumpfenden TDP-Spielraum ein Sinken der CPU-Leistung.
 
Geh mal davon aus, dass das nur der Basistakt ist, da kommt ja noch der Turbo drauf ;)

Wer hat denn den Floh in die Welt gesetzt?

Wenn dann die iGPU von Llano bei nur 400 Shader keine 1000Mhz im 95-Watt-Llano machen sollte, dann hat AMDs Umsetzung einer GPU in 32nm-HKMG-SOI auf ganzer Linie versagt, scheit die GPU zudem auch noch übermäßig viel Diesize zu verbrauchen, sodass sie vermutlich kaum kleiner sein dürfte, als im 40nm-Prozess.

Dass die Packdichten von 32nm SOI in etwa auf einer Höhe mit jenen des 40nm bulk von TSMC liegen müssten, haben wir doch vor Monaten schon ausgeknobelt.
EDIT: Bezogen auf die GPU-Architektur von ATi/AMD

Sollte dem so sein, kann man absehen, dass auch der Llano-Nachfolger in bulk, also 28nm-HKMG kommen wird. Nur mit welchem Core?
Nix da. 28nm bulk bleibt den Ontario-Nachfolgern vorbehalten.
 
Zuletzt bearbeitet:
Interessant vermutlich für den 28nm-Brazos-Nachfolger als auch die kommenden 28nm-HKMG-GPUs von AMD: auch Samsung scheint für seinen 28nm-HKMG-Prozess (der ja ebenfalls auf der gleichen IBM-based Technologie aufbaut, wie der von GF) schonn zig Tapouts zu haben, siehe hier.

Da würde es mich sehr wundern, wenn AMD nicht schon längst 28nm-GPU-Tapeouts bei GF hinter sich hat. Da sollte wohl GF mit 28nm-HKMG weit vor TSMC sein.
 
darf die 400Shader-iGPU in 32nm-HKMG-SOI nur <10Watt verbrauchen?

Eher unwahrscheinlich. Ist also nicht die TDP der APU sondern die Kombination aus extrem hoher Transistorzahl und -dichte bei hohem Takt zusammen mit GFs 32nm-HKMG-SOI Prozess das Problem? Wie hoch taktet Intel seine GPU in den SB?

[Hier noch der Link, wie wenig eine GESAMTE diskrete Notebook-Graka mit dem 400-Shader-Redwood selbst bei 650Mhz max verbraucht: 19Watt!

Nix gesamte GraKa, nur die GPU.


Nochwas fürs Poesiealbum:
Bin gerade am Ausmisten meiner alten ct von 200x. Bei der Vorstellung der Core-Prozessoren, erste Generation, Mobil, wurde auch erwähnt das man Transistoren für geringen Leckstrom oder hohe Frequenz optimieren kann. Sich nur auf die 95W TDP eines Desktopprozessors zu konzentrieren, mit dem Fuß aufzustampfen und zu verkünden das bei weniger als 1000 MHz Länge des digitalen [Fuchs]Schwanzes das Ende der grünlichen Zivilisation völlig unausweichlich sei, ist möglicherweise nicht wirklich hilfreich.
 
Zuletzt bearbeitet:
Mal ne ganz doofe Frage: Warum können die GPU-Transistoren eigentlich nicht mit dem normalen Takt der CPU laufen?

Grüße,
Seb
 
Mal ne ganz doofe Frage: Warum können die GPU-Transistoren eigentlich nicht mit dem normalen Takt der CPU laufen?

Grüße,
Seb

Warum konnte ein Athlon 64 einfach nicht mit PIV Takt laufen. Ganz einfach weil die Schaltkreise so gebaut werden das sie ein bestimmtest Taktziel erreichen sollen. Da spielt einfach die Physik eine große Rolle ein LKW kann auch keine Geschwindigkeit erreichen die ein schneller Sportwagen erreicht.

Das liegt ganz einfach an der Maxime:
CPU (PKW) - wenige, sehr unterschiedliche nicht parallelisierbare Aufgaben -> werden durch hohen Takt schnell gelöst.
GPU (BUS) - viele, identische parallelisierbare Aufgaben -> mehr Recheneinheiten mit idealem wenig Stromverbrauch

Mit dem Auto komme ich über all sehr schnell hin, ein Bus fährt langsam und i.d.R. nur bestimmte Linien aber er kann mehr Transportieren und fährt Energie effizienter wenn ihn alle nutzen ;-)
 
Die Frage ist nicht doof, sondern genial. Sagst Du uns bitte Bescheid wenn Du die Antwort gefunden hast?
 
Ich brauche nicht googeln, ich kenne die CPUs auch so. Es gibt keinen 2300k. In deinem Link wird der 2500k irrtümlich als 2300k bezeichnet. Weiter unten steht es korrekt in den technischen Details.
Gut. Woanders stand etwas von "Item discontinued". Wenn es kein Sondermodell ist (wie z.B. der 5W-Ontario speziell für Acer), dann bleibt die Frage, was da auf der DH-Folie dargestellt wurde.
 
@bbott schöner vergleich.

technisch liegt es daran, dass bei jedem Schaltvorgang eines Transistors Energie verbraucht wird.
Um eine TDP Grenze einzuhalten, dürfen also nur eine bestimmte Anzahl von Transistoren gleichzeitig pro Takt schalten. Bei hohem Takt also weniger Transistorschaltvorgänge als bei niedrigem Takt.
oder : Power = Anzahl schaltender Transistoren * Takt.

Bei einer GPU werden viele Aufgaben parallel durchgeführt und somit schalten viele Transistoren gleichzeitig, weshalb der Takt nicht so hoch sein darf.

Der Athlon hatte ein komplexeres Design als der PIV, wodurch mehr Transistoren pro Takt gleichzeitig schalteten. Jedoch wurden dadurch auch weniger Takte zur Ausführung eines Befehles benötigt, weshalb er trotz niedrigerem Takt schneller war als PIV.

Natürlich spielt auch die Fertigung der Transistoren eine Rolle.
Hat man einen Transistor, der weniger Energie pro Schaltvorgang verbraucht, kann man den Takt erhöhen oder die Schaltung komplexer gestalten um effizienter zu werden.

Mit Fusion wird es nun noch schwieriger zu entscheiden, wo das Optimum zwischen Takt und Komplexität liegen soll. Das scheint AMD ganz gut gelungen zu sein.
 
@bbott Danke für den Aufklärungsversuch mit Bus und PKW *g*

Das Transistoren für Schaltvorgänge Strom verbrauchen und dabei Abwärme produzieren ist mir durchaus klar. Das GPU's anders arbeiten als CPU's ebenso.


Aber:

Beide sitzen auf einem Chip, sind quasi mit der selben Produktionsmethode gefertigt. Eventuell unterscheiden sich die Transistoren in der Auslegung Takt vs. Stromsparen, aber nicht in einem Verhätlnis von mehr als 1:5.
Ich denke, dass prinzipiell auch die GPU-Transistoren in der Lage sein müssten, die Taktfrequenz der CPU mitzugehen.

Da eine GPU parallel arbeitet und dadurch nicht so hohe Taktfrequenzen benötigt, um die geplante Leistung zu erreichen, hätte man doch ebenso die Anzahl der Funktionseinheiten verringern können, dafür die Taktfrequenz erhöht. Das hätte auch noch Fläche gespart und die Fehleranfälligkeit verringert.



Mir erschließt sich der Sachverhalt deshalb nicht wirklich.


Grüße,
Seb
 
Beide sitzen auf einem Chip, sind quasi mit der selben Produktionsmethode gefertigt. Eventuell unterscheiden sich die Transistoren in der Auslegung Takt vs. Stromsparen, aber nicht in einem Verhätlnis von mehr als 1:5.

Warum nicht mehr als 1:5? Ich finde, wir sollten von maximal 1:6 ausgehen.

Bietet jemand 1:7? 1:7 irgendwer? Ah ja, 1:7 wird geboten von dem freundlichen Herrn mit dem MRAM-Prospekt. Das Gebot steht bei 1:7. Höre ich 1:8?....

Ohne Daten frei in die Luft zu spekulieren ist wie in die hohle Hand zu wichsen. Bringt kurzfristig Vergnügen, ist aber nicht wirklich zu irgendwas nütze.
 
Wenn man sich das Verhältnis von GPU zu CPU Takt bei Zacate anschaut und die bisher angenommenen Taktraten von Liano, kommt man ganz schnell zu einem solchen Verhältnis.

Dass verschiedene Arten von Transistoren um vielleicht 25% voneinander abweichen, will ich gar nicht bestreiten. Vielleicht kann ja jemand Aufklärung bringen, der sich damit auskennt.

Was ich mir ebenso vorstellen kann: Man wollte kein neues angepasstes Grafikchipdesign entwerfen und hat deshalb etwas vorhandes auf die CPU gebacken. So musste man lediglich die notwendigen Anpassungen für die Anbindung an das Speicherinterface und die Produktionsmethode durchführen. Nur sind diese Cores zu leistungsfähig, weshalb man sie jetzt drosselt.

Natürlich ist das Spekulation meinerseits. Da ich aber in den letzten Jahren die Erfahrung gemacht habe, dass es hier Leute gibt, die sich tatsächlich mit der Materie auskennen, können die mir vielleicht eine logische Antwort auf meine, aus meiner Sicht berrechtigte, Frage geben.

Grüße,
Seb
 
Vielleicht sind die Critical Paths bei den Schaltungen für die GPU schlicht anders als bei der CPU.
Die betrachtungsweise "selber fertigungsprozess = selber Takt" ist ziemlich einseitig.
Genauso könntest du Argumentieren dass jede 40nm GPU 1,6Ghz machen müsste, nur weil Die bobcat-Kerne in Zacate das schaffen...

Und natürlich haben sie was bestehendes genommen... das was Llano als GPU-Part beinhaltet dürfte eine Evergreen-Basierende GPU sein die eben auf 32nm SOI Fertigung angepasst wurde und mit ein paar Modifikationen ausgestattet um am selben Speichercontroller zu hängen wie die K10-Kerne.
Warum sollten sie den Aufwand betreiben und da was extra entwerfen? - Weißt du wie viele Ressourcen das kostet?
Und nebenbei, es wäre sicherlich möglich die GPU höher zu takten, nur müsste man dann um den TDP-Rahmen einzuhalten die CPU im Takt reduzieren.
Was bringt dem User im Durchschnitt der Anwendugsfälle mehr? - 400 Shader mit 1 Ghz und dabei CPU-Kerne die nichtmal 2Ghz schaffen können ohne dass die Kiste glüht.
Oder solide 3Ghz auf den CPU-Kernen und dafür moderatere GPU-Takte?
- ich glaube die Frage ist recht einfach für den 0815-User zu beantworten, der bisher sogar mit iGPU alla Intel klarkam. *noahnung*
Das Ganze ist eine simple Kosten/Nutzen - Rechnung.
Außerdem, wenn die Shader zu hoch takten, limitiert das Speicherinterface... und wenn man das alles breiter auslegt (triple channel) wirds zu teuer und kein Aas kauft mehr disrkete mittelklasse-Grakas.
Also....?
 
Vielleicht sind die Critical Paths bei den Schaltungen für die GPU schlicht anders als bei der CPU.
Die betrachtungsweise "selber fertigungsprozess = selber Takt" ist ziemlich einseitig.

Das ist doch mal der Ansatz einer Antwort, wie ich sie erwartet habe. In der Tat ein technisches Argument, welches sich wohl nicht ohne erheblichen Aufwand beseitigen ließe.

Nur was die Shader und die Leistungsfähigkeit des Speicherinterfaces angeht stimme ich nicht ganz überein. Meiner Betrachtungsweise folgend (also wenn man die Frequenz erhöhen könnte) kann man ja die Anzahl der Shader verringern, da die meines Wissens nach modularisiert sind.

Das die Gesamt-TDP des Chips eine Limitierung darstellt ist mir bewusst. Mir geht es darum, dass in meiner vielleicht naiven Vorstellung eine GPU mit wenigen hoch getakteten Transistoren nicht mehr Strom verbrauchen sollte, als eine GPU mit vielen niedrig getakteten Transistoren.
Hier kommt jedoch das Argument des Critical Path zum tragen, welches unwirtschaftliche Veränderungen am Design zur Folge hätte.

Vielleicht gibts ja noch andere technische Argumente. Mich würde es interessieren.

Grüße,
Seb
 
Denke auch, dass es an mehreren Sachen liegt: Critical Pathes, vorhandenes Design etc.
Vor allem sollte man auch Bedenken, dass die Gleichung " Halbe Transistoranzahl * doppelter Takt = gleiche Leistung " so nicht gilt.
Bei höherem Takt wird mehr Spannung benötigt zum Schalten.

Es gilt halt immer abzuwägen, bei vorhandenem TDP Budget, wodurch die optimale Leistung erreicht wird; mehr Takt oder mehr Transistoren.

Bei der GPU scheint dieses Optimum eben bei mehr Tansistoren bei geringerem Takt zu liegen.

Bin schon gespannt, was Llano und BD wirklich bringen.
 
Kommt wahrscheinlich schlicht daher dass die meisten GPUs nicht entworfen werden für Super-High-Performance-Prozesse mit SOI, HKMG und kram, und selten sehr hoch getaktet sind.
Ich meine, AMD könnte den selben Weg ja bei den Radeons gehen.
Wozu 1600 Shader ALUs in einem Cypress und nicht nur die Hälfte und dafür mit doppeltem Takt?
Das hat bestimmt technische Gründe die in der Bauart der Schaltkreise begründet sind, Puffer usw.
Llano ist als erster mainstram-FUSION-Chip noch der Versuchsballon, daher keine Custom-Designs, sondern erprobte CPU und GPU-Designs die nicht mehr in aller Gloria validiert werden müssen, die Schwierigkeit besteht in der Integration, im Tuning des Speichercontrollers für die wechselnden Zugriffsmuster, Powergating und GPU auf SOI "umdesignen"... da auch noch extra eine angepasste Hochtakt-GPU zu entwerfen wäre wohl etwas viel verlangt...
 
Warum nicht mehr als 1:5? Ich finde, wir sollten von maximal 1:6 ausgehen.

Bietet jemand 1:7? 1:7 irgendwer? Ah ja, 1:7 wird geboten von dem freundlichen Herrn mit dem MRAM-Prospekt. Das Gebot steht bei 1:7. Höre ich 1:8?....

Ohne Daten frei in die Luft zu spekulieren ist wie in die hohle Hand zu wichsen. Bringt kurzfristig Vergnügen, ist aber nicht wirklich zu irgendwas nütze.

1:5 ist doch durchaus konservativ und im zu erwartendem Bereich. Ausgehend von den kolpotierten 492MHz der GPU ist das 5-fache mit 2,5GHz ja alles andere als unrealistisch. "Ohne Daten" kann man auch bzgl. der CPU nicht behautpten, da die Husky-Kerne trotz allem noch K10 basierend sind - und wir da Takte kenne (ja, ich weiß, nur in 65/45nm, trotzdem...)

Da eine GPU parallel arbeitet und dadurch nicht so hohe Taktfrequenzen benötigt, um die geplante Leistung zu erreichen, hätte man doch ebenso die Anzahl der Funktionseinheiten verringern können, dafür die Taktfrequenz erhöht. Das hätte auch noch Fläche gespart und die Fehleranfälligkeit verringert.

Mir geht es darum, dass in meiner vielleicht naiven Vorstellung eine GPU mit wenigen hoch getakteten Transistoren nicht mehr Strom verbrauchen sollte, als eine GPU mit vielen niedrig getakteten Transistoren.

DB hat doch diesbezüglich schon die Antwort geliefert:

@BR: Ich mach es kurz: Die GPU-Takte gehören zum Gesamt-Trade-Off bzgl. Shaderzahl, Power, Die-Size, effiziente Spannungswerte. Die ~0,5GHz sind etwa der Sweet-Spot der Shader (knee of the curve).

Also ähnlich wie es bei z.B. bei Magny-Cours bei 2,2GHz gemacht wird. Es gibt einfach einen (Takt-)bereich, in dem (bestimmte) Transistoren am effizientesten arbeiten...

LG
 
Dass Llanos CPU-Kerne K10-Basierend sind hat AMD AFAIK selbst schon zugegeben...
Also nicht in dem Wortlaut aber da stand IIRC was von "Stars Microarchitecture" geschwafelt und das sind Deneb und Konsorten. also definitv K10
 
Mir erschließt sich der Sachverhalt deshalb nicht wirklich.

Naja, du weißt doch bestimmt, dass Prozessoren pipelining verwenden?

Das heißt Operationen werden in Teilaufgaben aufgeteilt um so einen höheren Takt zu ermöglichen.

Je mehr Stufen du in deine Pipeline einbaust, desto höher der Takt den du erreichen kannst.
Wie wir aber wahrscheinlich alle wissen bringt das aber natürlich nicht immer unbedingt was, denn nur hohen Takt zu erreichen ohne, dass die Recheneinheit etwas mit den freien Pipelinestufen anzufangen weiß ist Verschwendung. (das ist der P4 gewesen)

Darum hat sich bei derzeitigen CPUs eine etwas kürzere Pipeline eingebürgert, da diese sich besser Auslasten lässt. was natürlich für tendenziell niedrigere Taktraten sorgt.

Nun weiß ich nicht genau wie das bei GPUs aussieht, aber ich würde einfach mal schätzen, dass es sich bei der GPU aufgrund ihrer auszuführenden Aufgaben nicht lohnt viele Pipeline-stufen zu verwenden. Und wenn ein Chip eine kurze Pipeline hat dann kann er eben nur mit einem langsameren Takt arbeiten.

Eigentlich solltest du doch auch wissen, dass Takt nicht unbedingt gleichbedeutend mit Leistung ist. ;)
Es geht hier einfach darum, den Sweetspot für die jeweiligen Rechenaufgaben und die Architektur zu finden.
 
Naja, du weißt doch bestimmt, dass Prozessoren pipelining verwenden?

Das heißt Operationen werden in Teilaufgaben aufgeteilt um so einen höheren Takt zu ermöglichen ...
Nö, das hat mit Teilaufgaben nichts zu tun.

Ein CPU-Design mit pipelining-Architektur schiebt schon Rechenanweisungen nach, während die vorhergehenden Stufen noch an den (Teil)Aufgaben rechnen.

Beim K6 zum Beispiel war die FPU noch aus der "prä-Pipeling-Zeit". Das hatte den Nachteil, dass die FPU-Einheit erst neue Berechnungen anfordern konnte, wenn die vorhergehende Berechnung komplett die Gleitkommaeinheit (mit den auch dort vorhandenen einzelnen Stufen) durchlaufen hat.

Im Vergleich zu aktuellen Microarchitekturen nutzte der K6 eine vergleichsweise kurze "Bahnen", um die Berechnungen durchzuführen. Daher war die FPU-Einheit noch halbwegs leistungsfähig.

Bei aktuellen CPUs hingegen mit langen Wegen zum Berechnen, wäre solch ein Non-Pipeline-Design tödlich, wegen der langen Pausen dazwischen.
Es sei denn, der Takt wird hochgeprügelt - was IBM ja beim Power6 ja in der Tat so auslegte.
Der Power7 ist wieder ein Pipeline-Design.

MFG Bobo(2011)
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten