News AMD präsentiert Steamroller-Details, der 3. Generation der Bulldozer-Architektur auf der Hotchips-Konferenz: +30% IPC?

Um hier mal kurz etwas Aufklärungsarbeit zu leisten:

Die Angabe 15 % Mehr Leistung pro Watt lag Opteron zu dem Zeitpunkt nicht vor, als er die News geschrieben hat. Das liegt an dem Weg, den die Folien genommen haben, um bei ihm anzukommen.

Das Zitat zu dem Thema, welches ich in dem anderen Thread gepostet habe, stammt aus einer Mail, die ich einen Tag später (29. August) erhalten habe. Diese Informationen lagen den anderen Publikationen jedoch bereits am 28. August vor - uns zwar auch, allerdings im falschen Postfach.
 
Prozessunterschied hat wiederum nichts mit IPC zu tun und damit komplett am Thema/IPC-Angabe vorbei.
Sicher, aber die Perf/Watt Angabe hast Du mit dem Link zu HT4u ins Spiel gebracht, nicht ich, ich spekuliere aber über +30% IPC, das steht schon in der Überschrift. Die Perf/Watt-Zahl ist in der Tat ist wachsweis, da die Performance eben auch vom Takt abhängt und die "pro Watt" vom Herstellungsprozess. Wenn man ganz genau ist, dann sogar noch von der Selektion. Ein Opteron EE mit 40W TDP hat ne andere Perf/Watt als ein "Opteron SE" mit 115W TDP.

Das Beste was man in Hinblick auf IPC hat, ist aber nunmal nur die +30% Ops Angabe im Front-End. Bei INT bin ich mir diesbezüglich ziemlich sicher, dass sich das auch in entsprechender Mehrleistung niederschlagen könnte, da die beiden INT-Pipes eines INT-Clusters eher unterbeschäftigt sind, während bei der FPU-Leistung ganz sicher deutlich weniger zu erwarten ist, da die FPU dank SMT Betrieb schon im aktuellen Betrieb gut beschäftigt sein sollte. Da gibts höchstens nur eine Verbesserung im 256bit AVX Betrieb, da die neuen, breiteren Decoder/Dispatch die entsprechenden Double-Ops schneller abarbeiten und weiterleiten könnten.

Wenn man ein Mittel aus INT und FP zieht, dann ist man vermutlich wieder eher im 10-15% Bereich, da die FPU das Mittel ziemlich runterziehen sollte, aber im Desktop-Bereich mit den Spielchen und den Office-Benchmarks, ohne nennenswerten FP-Code-Anteil, erwarte ich eher 15-20% und mehr. Schauen wir mal wies kommt :)

Im Nachhinein bin ich sogar froh, dass die Perf/Watt bei uns verschüttet waren, das verwirrt nur und lenkt von der IPC ab. Man kann sich das ja auch andersherum denken:

Eine höhere IPC lastet pauschal und sehr grob gesehen die Recheneinheiten besser aus, d.h. es können weniger oft Bereiche per Power-Gating stromlos geschlaltet werden -> höherer Stromverbrauch -> keine Steigerung der Perf/Watt, da beides höher ist.

Einzige mir bekannte Ausnahme: Der µOp-Cache im Sandy-Bridge. Mal schauen ob Steamroller sowas ähnliches bekommt, oder doch "nur" nen kleinen Loop-Cache. Die Frage ist mMn z.Zt. noch offen, aber laut alten Patenten sollte es eher in Richting µOp/Trace-Cache gehen.
 
Sicher, aber die Perf/Watt Angabe hast Du mit dem Link zu HT4u ins Spiel gebracht, nicht ich, ich spekuliere aber über +30% IPC, das steht schon in der Überschrift. Die Perf/Watt-Zahl ist in der Tat ist wachsweis, da die Performance eben auch vom Takt abhängt und die "pro Watt" vom Herstellungsprozess.
Es geht nicht darum, wo von "pro Watt" noch so abhängig ist, sondern lediglich um ein erreichtes verbesserungsdelta, dass vorwiegend von der Architektur abhängig ist, laut AMDs Aussage.

Wenn man ganz genau ist, dann sogar noch von der Selektion. Ein Opteron EE mit 40W TDP hat ne andere Perf/Watt als ein "Opteron SE" mit 115W TDP.
Da wir immer noch von einem delta reden und nicht von absoluten Zahlen, bleibt das delta das vorwiegend von der Architektur abhängig ist, während der absolute Verbrauch abhängig von Selektion und Co. je nach Produkt schwankt.

Das Beste was man in Hinblick auf IPC hat, ist aber nunmal nur die +30% Ops Angabe im Front-End. Bei INT bin ich mir diesbezüglich ziemlich sicher, dass sich das auch in entsprechender Mehrleistung niederschlagen könnte, da die beiden INT-Pipes eines INT-Clusters eher unterbeschäftigt sind,
Unterbeschäftigt sind sie vor allem dann, wenn auf einem Modul zwei Threads ausgeführt werden. Wenn ein Thread auf dem Modul läuft, werden sie dank Optimierungen bei Piledriver schon ganz gut ausgelastet sein. Ergo hilft der dedizierte Decoder vor allem bei Vielthreadanwendungen. Bei Single-Thread helfen eher so Sachen, wie bessere Prediction, etc... Eine dritte INT-Pipeline, wie bei K10 will AMD ja immer noch nicht im INT-Cluster verbauen und der K10 hat eine höhere IPC, unabhängig davon, dass im Durchscnitt nur 1,5 Pipelines ausgelastet werden, es ist eben ein Durchschnitt und da gehen auch die höheren maximalwerte bei höherer Auslastung mit ein.


während bei der FPU-Leistung ganz sicher deutlich weniger zu erwarten ist, da die FPU dank SMT Betrieb schon im aktuellen Betrieb gut beschäftigt sein sollte. Da gibts höchstens nur eine Verbesserung im 256bit AVX Betrieb, da die neuen, breiteren Decoder/Dispatch die entsprechenden Double-Ops schneller abarbeiten und weiterleiten könnten.
Jo..

Eine höhere IPC lastet pauschal und sehr grob gesehen die Recheneinheiten besser aus, d.h. es können weniger oft Bereiche per Power-Gating stromlos geschlaltet werden -> höherer Stromverbrauch -> keine Steigerung der Perf/Watt, da beides höher ist.
Power-Gating wird nicht an jeder Pipeline und Transistor betrieben. Wenn nur eine Pipeline aktiv ist und vielleicht sogar noch "Blasen" hat, d.h einige Pipelinestages takten im Leerlauf, dann verbraucht der Prozessor dennoch Strom, während die Leistung sehr schlecht ist. Würde man die Blasen entfernen und die zweite Pipeline ebenfalls vollkriegen, die ja immer noch taktet, würde die Performance steigen, der Verbrauch hingegen kaum, ergo mehr Auslastung->Steigerung der Perf/Watt. Zudem würde der Prozessor nach schneller Abarbeitung der Aufgabe schneller in den Stromsparmodus zurückkehren und hier tatsächlich dann auch dank PowerGating Strom sparen. -> noch mal höhere Perf/Watt.
 
Es geht nicht darum, wo von "pro Watt" noch so abhängig ist, sondern lediglich um ein erreichtes verbesserungsdelta, dass vorwiegend von der Architektur abhängig ist, laut AMDs Aussage.


Da wir immer noch von einem delta reden und nicht von absoluten Zahlen, bleibt das delta das vorwiegend von der Architektur abhängig ist, während der absolute Verbrauch abhängig von Selektion und Co. je nach Produkt schwankt.
Ein eindimensionales Delta (Unterschied in der Leistung) ist doch nicht das gleiche wie ein 2D-Delta (Leistung pro Watt) *kopfkratz
Unterbeschäftigt sind sie vor allem dann, wenn auf einem Modul zwei Threads ausgeführt werden. Wenn ein Thread auf dem Modul läuft, werden sie dank Optimierungen bei Piledriver schon ganz gut ausgelastet sein. Ergo hilft der dedizierte Decoder vor allem bei Vielthreadanwendungen. Bei Single-Thread helfen eher so Sachen, wie bessere Prediction, etc... Eine dritte INT-Pipeline, wie bei K10 will AMD ja immer noch nicht im INT-Cluster verbauen und der K10 hat eine höhere IPC, unabhängig davon, dass im Durchscnitt nur 1,5 Pipelines ausgelastet werden, es ist eben ein Durchschnitt und da gehen auch die höheren maximalwerte bei höherer Auslastung mit ein.
Der Punkt stimmt sicherlich auch, aber selbst im 1 Thread Betrieb sehe ich da noch viel Luft nach oben. Beim Thema 3.INT-Pipe sind die Daten von Jaguar ganz interessant, dessen IPC unter nem nicht näher speziizierten App-Mixx geben sie jetzt mit 1,10 an, Bobcat hatte 0.90 oder 0.95 (da gibts irgendwie 2 Werte), und als Referenz mit 1,00 hatten AMD da nen alten K10. D.h. das neue 2-Pipe-Design ist jetzt - bei dem unbekannten App-Mix- schneller als das alte mit 3 INT-Pipes. Fazit: Da ist sicher auch bei BDs 2 Pipes noch (viel) Luft ;-)



Power-Gating wird nicht an jeder Pipeline und Transistor betrieben.
Ach sorry, ich meinte Clock-Gating, Power-gating gibts ja nur sehr, sehr grob auf Modulebene. Da hast Du mit Deinem Einwand dann natürlich recht. Beim Clock-Gating kann man dann bemängeln, dass der Hauptstromverbrauch und der clock-gated Stromverbrauch wegen der immer vorhandenen Leckströme nicht sooo riesig ist, aber etwas wirds wohl schon ausmachen.
 
Ein eindimensionales Delta (Unterschied in der Leistung) ist doch nicht das gleiche wie ein 2D-Delta (Leistung pro Watt) *kopfkratz
2D-Delta (Leistung pro Watt) bei gleicher CPU-Leistung (nur unterschiedliche Selektion) ist nur von einer Variable abhängig, nämlich dem Verbrauch, weil die Leistung ja konstant ist.... aber das mit 2D- und 1D-Delta ist eh komisch formuliert, ich beschreib es dir lieber anders.

Der normalübliche Steamroller wird vorwiegend aufgrund der Architektur ca. 15 Prozent besseres Leistung/Watt haben, so die Aussage von AMD. Die 40W CPUs könnten dann weiterhin Effizienter sein als die 125W CPUs, so wie aktuell auch. Es spricht ja nichts dagegen, dass die absoluten Unterschiede weiterhin bestehen. Die Rede ist ja nur von einem delta zum vergleichbar selektierten Produkt aus der Vorgängerserie. Und natürlich ist es nur eine Schätzung.

Beim Thema 3.INT-Pipe sind die Daten von Jaguar ganz interessant, dessen IPC unter nem nicht näher speziizierten App-Mixx geben sie jetzt mit 1,10 an, Bobcat hatte 0.90 oder 0.95 (da gibts irgendwie 2 Werte), und als Referenz mit 1,00 hatten AMD da nen alten K10. D.h. das neue 2-Pipe-Design ist jetzt - bei dem unbekannten App-Mix- schneller als das alte mit 3 INT-Pipes. Fazit: Da ist sicher auch bei BDs 2 Pipes noch (viel) Luft ;-)

Keine Ahnung ob die Zahlen jemand geschönt hat, oder ob die aus dem Kontext gerissen sind und dadurch mir völlig bananne vorkommen, aber Bobcat hat nicht 90% der IPC von K10. Da gab es glaub ich von HT4U mal ein Vergleich bezüglich IPC. Von daher ist auch der Rest der Aussage, die darauf aufbaut, nichtig.

Die Traumwerte von Jaguar sind sogar, wenn man logisch über die Produktpolitik nachdenkt völlig Unglaubwürdig. Wenn ein, auf Kostenersparnis konstruierter Prozessor "Jaguar" schneller ist als der auf Performance optimierter Piledriver, der nach wie vor hinter der IPC von K10 liegt, dann würden Trinity-CPUs mit 17W TDP kein Sinn machen, weil ja Jaguar mit 17W TDP dann schneller UND günstiger wären....
 
Zuletzt bearbeitet:
Der normalübliche Steamroller wird vorwiegend aufgrund der Architektur ca. 15 Prozent besseres Leistung/Watt haben, so die Aussage von AMD. Die 40W CPUs könnten dann weiterhin Effizienter sein als die 125W CPUs, so wie aktuell auch. Es spricht ja nichts dagegen, dass die absoluten Unterschiede weiterhin bestehen.
Natürlich spricht etwas dagegen und zwar der Herstellungsprozess. Keiner weiss wie GF den genau auslegt und wieviel Spannung die Transistoren brauchen um einen stabilen Betrieb sicherzustellen. Von der Spannung hängt wiederum der Verbrauch, also die Watt ab, wodurch Dein Quotient aus Perf/Watt nicht starr fixiert bleibt. Was wir z.B. schon wissen ist, dass bei 28nm kein SOI genommen wird, in nem guten Forum (wenn ich mich recht erinnere, realworldtech) schrieb mal einer, dass AMD dadurch 5 - 10% Leistung verlieren wird. Entweder sie senken dann den Takt um in den üblichen TDP Rahmen zu bleiben, was sich auf die Leistung auswirkt, oder sie lassen es gleich, dann könnte man mal wieder über 140W TDP Typen spekulieren. Wie dem auch sei, die Perf/Watt ändert sich in jedem Fall.

@Jaguar:
Die 90% waren in einem von AMD spezifizierten "Mainstream"-App-Mix. Ich denke da werden keine FPU-Sachen dabei gewesen sein. Takte mal nen K10 auf ~1,5 GHz runter und vergleich ihn mit nem Bobcat, der Office-Software u.ä. abarbeitet. Ich bin mir sicher, dass da nicht viel Unterschied sein wird. Wenn ich mich recht erinnere gabs da auch diverse Seiten, die das nachprüften. Dass Jaguar dann mit der 128bit FPU und den restlichen Verbesserungen sogar vorbei ziehen könnte, wäre keine Hexerei. Jaguar ist außerdem noch nicht draußen, vielleicht gibts noch etwas Überschneidung mit dem Trinity, aber die meiste Zeit wird Jaguar dann die Steamroller-Produkte komplettieren und nach unten absichern. Außerdem gibts als weiteren Grund für Trinity-Geräte die bessere Grafik (v.a. auch durch das dual DDR3 Interface).
 
ähm...
Also dass ein neuer low-End Prozessor mit wesentlich mehr unterstützten Instruktionen, loop-buffer, memory disambiguation und allem kladderadatsch allen ernstes in etwa auf die IPC eines - vor wie vielen Jahren entwickelten mainstream-Kerns kommt ist unwahrscheinlich!? o_O
Jaguar hat eine ebenso breite FPU wie K10, kann mit jeder Menge Features aufwarten die K10 nicht hatte um die Bubbles zu reduzieren und K10 ist auch nicht grade als IPC-König bekannt (wenn man bei 3-issue im Mittel nur 1,2 oder so ausgelastet kriegt ist das nicht eben effizient...)
Also ich sehe nicht warum er das nicht schaffen sollte.
Und bis Jaguar sich breit verteilt, ist auch steamroller ante Portas, ergot, ist Steamroller Jaguars "Big Brother" - nicht Trinity.
Zudem sollte man erwarten dass Steamroller wesentlich höher takten sollte, mit mehr Shadern antritt und eher in einem High-Performance-Prozess gefertigt wird als Jaguar. Die zwei kommen sich also viel weniger ins Gehege.
Im Gegenteil, mit einer starken,billigen Low-End-CPU kann man die größere erst Recht auf höhere Leistung trimmen weil man das untere Feld nicht noch damit abdecken muss sondern einfach höher getaktete Jaguars nehmen kann. *noahnung*
Übrigens sind IPC-Angaben ohne den Code-Mix in dem sie erreicht werden absolut für die (Raub-)Katz
 
ähm...
Also dass ein neuer low-End Prozessor mit wesentlich mehr unterstützten Instruktionen, loop-buffer, memory disambiguation und allem kladderadatsch allen ernstes in etwa auf die IPC eines - vor wie vielen Jahren entwickelten mainstream-Kerns kommt ist unwahrscheinlich!? o_O
Wenn du ein Zitat von mir zeigen kannst, wo ich bezüglich der Leistung im Vergleich zu K10 lediglich mit "low-End-Prozessor" argumentiert habe, darfst du mir diese Frage stellen, ansonsten dient wohl diese Frage eher als Unterstellung um von den wahren Argumenten abzulenken.

Wenn ich mich recht erinnere gabs da auch diverse Seiten, die das nachprüften.

Richtig und ich hab eine Seite auch genannt die das gemacht hat. Warum du also nicht nachschaust und lieber weiter darüber spekulierst was AMD wo angegeben hat, in welchem unbekannten "Mainstream-Mix", ist mir unklar. Bringt doch nichts, wenn unabhängige Tester was anderes zeigen.

Natürlich spricht etwas dagegen und zwar der Herstellungsprozess. Keiner weiss wie GF den genau auslegt und wieviel Spannung die Transistoren brauchen um einen stabilen Betrieb sicherzustellen.
Die Aussage bezüglich besserer Performance/Watt ausgehend von den Designverbesserungen kam direkt von AMD. Wenn du meinst, dass AMD keine Ahnung hat und solche Aussagen noch gar nicht tätigen darf, kannst du dich ja bei AMD beschweren. Ich versuche dir nur die ganze Zeit AMDs Aussage zu erklären.

Im Übrigen hast du auf der vorhergehenden Seite noch die Hoffnung geäußert, der Prozess würde noch was raus holen können. "Da kann noch viel passieren". Jetzt ist der Prozess das, was eher als Bremse angesehen wird, weil kein SOI. Vielleicht solltest du dich erst mal entscheiden in welche Richtung du nun hoffst, oder dich doch darauf beschränken, dass es "keiner weis".
 
Zuletzt bearbeitet:
Zurück
Oben Unten