Bulldozer rollt an....

Status
Für weitere Antworten geschlossen.
ist schon länger bekannt das der Tapeout mitte 2010 war, aber vorher soll es angeblich ende 2009 auch ein tapeout gegeben haben.
 
Klar haut das einem nicht aus den Socken (IPC), jedoch setzt ncrc auf die energieeffiziernte Variante. nicht auf die am höchsten getacktete Variante. Und es ist unklar ob der Turbo da eingerechnet ist.
 
Nachtrag:
- Bei 260 vs 386 TFlops (+~49%)
- 12 vs 16 Kerne (~+33%)
- 2,1 vs 2,3GHz (~+10%)

Bleibt also nach dieser Rechnung nicht mehr viel an höherer IPC über...
Eine gesteigerte IPC @ Multi-Thread würde ich schon als Erfolg ansehen, da der einzelne Core wegen dem Modul-Konzept nicht 100% sondern 90%/180% bzw. eben weniger als 200% hat, was sich dann in 1 bzw. 2 oder 4-Thread-Auslastung positiv in sachen IPC auswirkt.

Außerdem bleibt die Frage, wie sich SSSE3, SSE 4.1, SSE 4.2 und 2mb L2-Cache dann noch für einen Performance-Schub @ Desktop-Anwendungen & Spiele bringt.

Also, wenn das 2,3Ghz-Interlagos-Modell, wie das 2,1Ghz-Magny-Course-Modell das 2. Schnellster der Max-Core-Serie@80W-ACP ist, dann sollte sich ein 3,4Ghz-8-Core-Bulldozer@Desktop ausgehen.

Meine Einschätzung war ja von 3,5Ghz (- 4,0Ghz alias Hoch-Takt-Design bzw. Schön um Wahr zu sein), der mit 3,5 Ghz quasi am 3,3 Ghz-6-Core fortsetzt.

Interessant wird es auch sein, ob die 2,3 Ghz-Interlagos so wie 2,1-Ghz-Magny-Course mit 1,1875-Volt laufen.
Wenn ja, dann hätte AMD etwas mehr TDP-Potential & Takt-Potential für den Desktop-Bulldozer/die Server-Zukunft, da mit High-K & Metal-Gates generell niedere Spannungen möglich sein sollten. AMD hat ja den 32nm-Prozess schon mit bis zu 1,30 Volt angegeben, während 45nm bis zu 1,4-Volt geht.

mocad_tom schrieb:
Ganz ehrlich:
Es haut mich nicht vollkommen aus den Latschen.
Zumindestens sieht es nicht nach einem Fail bzw. Barcelona aus :)

ist schon länger bekannt das der Tapeout mitte 2010 war, aber vorher soll es angeblich ende 2009 auch ein tapeout gegeben haben.
Ich glaube, es gibt zwei verschiedene Arten von Tape-Out bzw. AMD hatte Ende 2009 Bulldozer schon in Form von Silicium-Stücke, aber davon kann man noch nicht als Tape-out sprechen.
 
Zuletzt bearbeitet:
Nachtrag:
- Bei 260 vs 386 TFlops (+~49%)
- 12 vs 16 Kerne (~+33%)
- 2,1 vs 2,3GHz (~+10%)

Bleibt also nach dieser Rechnung nicht mehr viel an höherer IPC über...
Das wurde doch nun schon etliche male durchgekaut, dass man es so nicht rechnen kann. AMD gibt 80% der Performance für ein Modul im Vergleich zu einem CMP Dual-Core an. Interlagos hat 8 Module, also 640% (8x 80%). Für Magny-Cours sind es 600% (12/2x 100%). Kernseitig hätte Interlagos also lediglich ~6,67% mehr Performance. Unterm Strich würden die Zahlen auf ~27% mehr IPC hindeuten. Ist natürlich trotzdem alles zu schwammig für konkrete Fakten, speziell was Desktop Performance betrifft.


So jetzt wissen wir wenigstens Mal auch das TapeOut
Ist doch schon länger bekannt.
 
Ja, damit hast du natürlich Recht, dass es bezogen auf die völlig andere Architektur nur bedingt so gerechnet werden kann. Vll. darf man dafür einfach den Begriff IPC nicht mehr verwenden.

Dann probiere ich es mal so: Wenn man die Leistung eines (bzw. dieses) Magny-Cours Prozessor auf 16Kerne und 2,3GHz hochskaliert, hat (dieser) Interlagos nur eine geringfügig höhere pro Thread Leistung.
Dies dürfte nun etwas stichfester sein :)
Aber es sollte auf jeden Fall klar sein, was gemeint ist.

LG
 
Diese Werte würden mich jetzt auch eher enttäuschen. Stellt sich nun die Frage, ob AMD hier einfach vorsichtig ist, und von Anfang an einfach mal nicht mehr als diese 2,3Ghz verspricht. Und bei "Juni 11" kann man wohl von Anfang der BD-Server-CPUs sprechen. Von daher hoffe ich, dass es dann doch etwas mehr wird, wenigstens 2,5Ghz.

Ganz wichtig bei den Server-CPUs ist aber dennoch, dass die Magny-Cours-Plattform schon da ist, sodass sich BD im Server-Segment von Anfang an gut verkaufen sollte, weil hier einige Upgrade-CPUs laufen sollten. Oder wer kauft kein solches Upgrade, wenn er mit einem reinen CPU-Tausch die Leistung seiner Server um 50% steigern kann?
.
EDIT :
.

Gehe ich von all diesen Infos bisher aus, so sehe ich die ersten Zambezi mit folgenden Specs:

- mindestens 3,5Ghz Grundtakt (+500Mhz-Turbo + Turbo für weniger als alle Cores)
- die Multithread-IPC nimmt nur wenig gegenüber K10.5 zu, weil sich beide Cores im Modul die "einfach" Elemente teilen müssen
- die Singlethread-IPC dürfte jedoch um einiges steigen, weil hier ein Core/Modul alle Elemente für sich hat, zudem dürfte dann ein höherer Turbot-Takt greifen

...womit wir dann wieder bei der Frage wären, um wieviel BD im Singlethred gegenüber K10.5 zulegen könnte?

Takt:
3,5Ghz+500Mhz+300Mhz (reine Schätzwerte) im Vergleich zu 3,7Ghz (Maxtakt von X6-1100T) => +16,2%

IPC:
Wenn sie im Multithread mindestens auf K10.5-Niveau liegen sollte, aber ein Modul nur "180%" zweier "echter" Cores liegt, dann erlaube ich mir von mindestens +10% IPC auszugehen. Wahrscheinlich sollte es aber in Realität deulich mehr werden. Meine Annahme mal: +15%

1,15*1,16=1,33 => im Singlethread sollte BD um rund 33% über K10.5 liegen, selbst wenn keine neuen Befehle zum Einsatz kämen.

Des weiteren erwarte ich AMD-typisch relativ schnell (ein Quartal später) deutlich höher getaktete Zambezi-BD.
 
Eine gesteigerte IPC @ Multi-Thread würde ich schon als Erfolg ansehen, da der einzelne Core wegen dem Modul-Konzept nicht 100% sondern 90%/180% bzw. eben weniger als 200% hat, was sich dann in 1 bzw. 2 oder 4-Thread-Auslastung positiv in sachen IPC auswirkt.
Ich denke mit diesen Rechnungen sollte man sehr vorsichtig sein.
Wenn ein Modul im Vergleich zu 2 echten Kernen des selben Bulldozers 180% Leistung wegen den geteilten Ausführungseinheiten erreicht, dann heisst das noch lange nicht dass 1 Kern im Single Thread 90% (wovon eigentlich?) erreicht. Keiner würde auf die Idee kommen das selbe über Intel SMT zu schreiben - z.B. 60%/120% ;)
 
Er schreibt ja auch genau das Gegenteil. Im non-Single-Thread Betrieb, also wenn 2 Threads auf einem Modul laufen, hat das Modul mit 2 Threads 180% und ein Thread 90%.
Weiters schreibt er z.B., dass bei einem Thread sich die Sache positiv auf die IPC auswirkt.

Also er macht nicht den Fehler, vor dem du warnst :)

LG
 
Man sollte jetzt nicht zuviel von BD erwarten, aber ansich sieht das Ganze nicht so schlecht aus:

+50% an Leistung in Multithread gegenüber K10.5

und vermutlich insgesamt >+35% an Single-Tread-Leistung gegenüber K10.5. Vermutlich wird die IPC von BD damit immer noch ein ganzes Stück hinter Intel bleiben, aber womöglich macht BD rund 20% höhere Takte als Intel. Im Max.Turbo-Mode erwarte ich in H2/11 durchaus 4,8Ghz. Und selbst wenn Intel hier bis auf 4Ghz aufschließen würde, hätte BD immer noch 20% mehr Takt.
 
Dann probiere ich es mal so: Wenn man die Leistung eines (bzw. dieses) Magny-Cours Prozessor auf 16Kerne und 2,3GHz hochskaliert, hat (dieser) Interlagos nur eine geringfügig höhere pro Thread Leistung.
Der hätte dann aber auch eine deutlich höhere Leistungsaufnahme. ;)


Stellt sich nun die Frage, ob AMD hier einfach vorsichtig ist, und von Anfang an einfach mal nicht mehr als diese 2,3Ghz verspricht.
Da 2,1 GHz nicht das schnellste bei Magny-Cours ist, gehe ich davon aus, dass es auch Interlagos mit mehr als 2,3 GHz gibt. 2,5-2,6 GHz sollte drin sein. Das läge dann auch etwa in dem Bereich, mit dem ich gerechnet habe.
 
Man kann mit hoher Wahrscheinlichkeit von der gleichen TDP bzw. sehr ähnlichen Leistungsaufnahme für 12x2,1GHz Magny Cours und 16x2,3GHz Interlagos ausgehen, da eben von dem Drop-in-Upgrade die Rede ist. Und die ganze Kühlanlage (und auch Energieversorgung) des Rechenclusters (und auch des Standortes) ist ja bereits für eine gewisse Wärmeabfuhr (hier 80W ACP, 115W TDP pro Prozessor) ausgelegt
 
Zuletzt bearbeitet:
Bulldozer/Zambezi scheint seine Schatten voraus zu werfen: nicht nur, dass die SB-CPUs anscheinend niedriger gepreist sind, als viele erwartet hatten, senkt nun Intel die Preise seiner Highend-CPUs bis zu 48%:

"...Noch stärker im Preis soll der Core i7-960 sinken. Der Vierkerner (acht mit HT) für den Sockel 1366 mit 3,2 GHz Takt sinkt von bisher 562 US-Dollar auf nun 294 US-Dollar - das entspricht einer Preissenkung von satten 48 Prozent...."
 
Bulldozer/Zambezi scheint seine Schatten voraus zu werfen: nicht nur, dass die SB-CPUs anscheinend niedriger gepreist sind, als viele erwartet hatten, senkt nun Intel die Preise seiner Highend-CPUs bis zu 48%:

"...Noch stärker im Preis soll der Core i7-960 sinken. Der Vierkerner (acht mit HT) für den Sockel 1366 mit 3,2 GHz Takt sinkt von bisher 562 US-Dollar auf nun 294 US-Dollar - das entspricht einer Preissenkung von satten 48 Prozent...."
Endlich mal Ausverkaufspreise bei Intel, wird ja mal langsam Zeit ^^
Im Ernst, wer soll die CPUs noch kaufen, wenns Sandy Bridge zum gleichen Preis gibt ?
Gibt doch dann keinen Grund mehr für die (Quad)1366er ... und dann kommt ja bald auch noch SandyE.

@Opteron
klar Intel hat nur FMA3, deshalb schrieb ich FMA4 kommt erst ab 2013 (mit Haswell Design)
Hm sicher ?
Von FMA4@Intel hab ich noch nichts gehört, mMn ist das komplett gelöscht. Im AVX Handbüchlein steht ja auch nichts drin, und da sind schon die Erweiterungen der (über)nächsten Generation mit drin.

ciao

Alex
 
Bulldozer/Zambezi scheint seine Schatten voraus zu werfen: nicht nur, dass die SB-CPUs anscheinend niedriger gepreist sind, als viele erwartet hatten, senkt nun Intel die Preise seiner Highend-CPUs bis zu 48%:

"...Noch stärker im Preis soll der Core i7-960 sinken. Der Vierkerner (acht mit HT) für den Sockel 1366 mit 3,2 GHz Takt sinkt von bisher 562 US-Dollar auf nun 294 US-Dollar - das entspricht einer Preissenkung von satten 48 Prozent...."
Das hat aber wohl weniger mit Bulldozer zu tun. Man passt den Preis einfach den restlichen Plattformen an. Der i7-870 für LGA-1156 und der i7-2600 für LGA-1155 werden ebenfalls für $294 gelistet. Wer soll denn da noch einen i7-960 für das doppelte kaufen? Für das Geld kann man sich dann auch gleich eine LGA-1155 Plattform inklusive dem schnelleren und sparsameren Sandy Bridge zulegen.
 
Hm sicher ?
Von FMA4@Intel hab ich noch nichts gehört, mMn ist das komplett gelöscht. Im AVX Handbüchlein steht ja auch nichts drin, und da sind schon die Erweiterungen der (über)nächsten Generation mit drin.

ciao

Alex


Aussage vom Themenabend:
Ich sage auch nicht, daß FMA4 in Intel CPUs nicht kommt, sondern daß es jetzt noch nicht so weit ist.

Mehr weiß ich nicht *noahnung*
 
Wenn das kein gutes Vorzeichen für Server-BD ist: Dell bringt einen neuen 8-CPU-Server schon im Vorfeld von Bulldozer:


"Dell introduces server with 96 CPU cores...
...The company rejects Intel chips for the server, choosing AMD because its chips provide better performance per watt. The server is designed to run scientific or math applications and can also be used in cloud and virtualized computing environments..."
 
Das Dell-Angebot scheint aber kein NUMA-System zu sein.
Im Text ist die Rede von zwei 4-Sockel-G34-Boards.

Würde mich wundern, wenn da plötzlich ein 8-Sockel-G34-Board kommen würde.
 
Ich denke mit diesen Rechnungen sollte man sehr vorsichtig sein.
Wenn ein Modul im Vergleich zu 2 echten Kernen des selben Bulldozers 180% Leistung wegen den geteilten Ausführungseinheiten erreicht, dann heisst das noch lange nicht dass 1 Kern im Single Thread 90% (wovon eigentlich?) erreicht. Keiner würde auf die Idee kommen das selbe über Intel SMT zu schreiben - z.B. 60%/120% ;)
Ich meinte mit 90% die Single-Core-Performance, wenn alle Cores ausgelastet werden.
Aber wie du schon sagtest. Mit der "Rechnung" hätte ich vorsichtiger sein müssen bzw. genauer beschreiben müssen.

Ja, damit hast du natürlich Recht, dass es bezogen auf die völlig andere Architektur nur bedingt so gerechnet werden kann. Vll. darf man dafür einfach den Begriff IPC nicht mehr verwenden.
Die Frage ist, ob der Bulldozer überhaupt mit 100% arbeitet.
Das könnte nur ein Theoretischer Wert sein, der aber ineffizient sein könnte.

Denn es wäre ineffizient, wenn im Modul @ Single-Thread mit 4-fach-Front-End den Integer-Core mit den 2-ALUs mit selben Takt versorgen würde.
Also, um das ganze Performnance-Pontential innerhalb selben Taktes auszuschöpfen, werden die letzten 10% (also von 90% auf 100%) Performance eben mit den 2-fach-Front-End erreicht, die sonst bei Multi-Threaded den 2. Integer-Core versorgen würden.

Also, wenn das 4-Fach-Front-End schon die 2-ALUs versorgen "müssen", dann sollte der Takt des 1.Cores erhöht wären. Weil das Front-End viel größer/mehr Transistoren (AFAIK 2-4-Mal) ist als ein Integer-Core mit 2-ALU

Kurz gesagt @ Single-Thread (pro Modul):

Anstatt Fall 1:
4-Fach-Front-End @ Normal-Takt versorgen 1.Integer-Core (2-ALU) mit Normal-Takt
(=100% IPC aber eben mit Normal-Takt --> 100%-Performance)

lieber Fall 2:
4-Fach-Front-End @ Normal-Takt versorgen 1.Integer-Core (2-ALU) mit Doppel-Takt
(=90% IPC aber eben mit doppelten ALU-Takt --> 180%-Performance)

Zweiteres wäre IMO deutlich effizienter und somit höher Übertaktbar.
Aufgrund der ineffizientere Nutzung vom Gesamt-Front-End im 1.Fall (=geringeres TDP-Potential) würde ich schätzen/aus-dem-Himmel-annehmen, dass Fall 1 nur mit 50% übertaktbar ist und so mit 150% vs. 180% @ Single-Core eben Fall 2 effizienter wäre.

!!! falls das überhaupt möglich wäre !!!! Bzw. das wäre "Zu schön um wahr zu sein"
PS: die 180%-Performance sind nicht die 180% aus dem CMT-Konzept. Zufällig ist diese Zahl gleich, weil ich es mit doppelten ALU-Takt verwendete.

Kurz gesagt:
Das Modul-Konzept könnte sehr interessant werden, z.B. falls der erwähnte Fall 2 funktioniert.
Denn damit hätte AMD eine schlanken-effizienten-(Hochtakt)-Architektur (Modul-Konzept mit 2-ALU pro Core) die im Server-Markt viele Cores anbieten kann sowie im Desktop-Markt einen hohen ALU-Takt anbieten kann und somit mit einer Architektur beide Märkte optimal bedienen kann.

Das könnte der Grund sein, warum immer nur Server-Werte vom Bulldozer veröffentlicht wurden.
Denn das innovative beim Bulldozer ist ja nicht die Performance-pro-Core unter Multi-Thread, sondern die hohe Dichte an Integer-Cores sowie das Verhalten (siehe oben) im Desktop-Markt.
Genau das ist die Schwäche vom Thuban im Desktop-Markt, da sie zwar recht viele Cores hat und im Gegen-Satz zu Sandy-Bridge ziemlich klein, aber eben nicht hoch taktbar.

Vielleicht ist es neben SSE 5.0 --> AVX eben auch der Turbo 2.0 (sowie die Ausreifung/Optimierung) der 2. Grund, warum Bulldozer verschoben wurde.
Damit er dann auch im Desktop-Markt durch höhere Takte (die nur mit Turbo 2.0 möglich sein ; siehe oben) ein gutes / sehr gutes Image von Anfang an bekommt und gleich "einschlägt".

Warum nicht, der 6-Core-Server wurde ja auch recht "kurzfristig" Juni 2009 eingeführt sowie Thuban, der dann überraschenderweise und auch nur mit Turbo 1.0 April 2010 kam.
Wenn man bedenkt, dass Bulldozer eigentlich schon Mitte 2009 hätte kommen sollen und Thuban mit Turbo 1.0 schon überraschend kam, könnte Turbo 2.0 durchaus für eine Verschiebung gesorgt haben, damit Bulldozer auch für den Desktop optimal aufgestellt wird.

Das wurde doch nun schon etliche male durchgekaut, dass man es so nicht rechnen kann. AMD gibt 80% der Performance für ein Modul im Vergleich zu einem CMP Dual-Core an. Interlagos hat 8 Module, also 640% (8x 80%). Für Magny-Cours sind es 600% (12/2x 100%). Kernseitig hätte Interlagos also lediglich ~6,67% mehr Performance. Unterm Strich würden die Zahlen auf ~27% mehr IPC hindeuten. Ist natürlich trotzdem alles zu schwammig für konkrete Fakten, speziell was Desktop Performance betrifft.
Also, ich verstehe immer noch nicht, wie du auf 160% bzw. 80% unter Multi-Thread bzw. ich kann die Zahlen einfach nicht nachvollziehen, da JF ja von 180% sprach und die 160% dann später als Versprecher bezeichnete.
Es wäre nett, wenn du es nochmal versuchst es zu erklären.

Mir wäre es ja lieber, wenn es dann so kommt, wie du es sagst, da dann die Single-Thread-Performance bzw. IPC erheblich größer wäre, als ich jetzt vermute würde alias 27% statt ~5%
 
Ist doch letzten Endes alles eine Frage der auslegung.
Wenn ein fiktiver singlecore BD, also selber architektur, nur eben ohne 2. INT-Core x gigaflops gebracht hätte, wirft das mehrere Fragen auf:
- wäre der einzelne int-core ebenfalls 2-issue gewesen oder breiter?
Wenn wir von 100% oder 90% Leistung sprechen, bezogen worauf?
Wenn nur ein einzelner Thread läuft, hat dieser auf BD mehr Ressourcen zur verfügung als er auf einem gleich konstruierten 2-issue Singlecore hätte (fetterer decoder und mehr cache, 256Bit-FPU exklusiv für sich alleine...)
Also werden hier wohl eher keine 90% anliegen...
Die 90% Pro einzelthread beziehen sich also auf den Fall wenn 2 Threads auf dem Modul laufen, da hat die Bauweise nämlich durch das Sharing Nachteile gegenüber einem CMP-Design.
Allerdings spart man gegenüber CMP mächtig an transistoren, die sich wiederum in höherme Takt oder mehr kernen niederschlagen können.
Zusätzlich ermöglicht Moduldesign einige andere kniffe, die wir vielleicht in BD1 noch nicht zu sehen kriegen, aber die Basis ist IMHO schon sehr gut um zukünftig noch einiges darauf aufbauen zu können...
 
Hi,

auch interessant (abseits der Performance-Diskussion):

ASrock hat in der Vergangenheit wiederholt durch ungewöhnliche Mainboards für Aufsehen gesorgt. Das "890FX Deluxe 5" wird sich in diese Reihe nahtlos einreihen. Denn wie sein Vorgänger, das "890FX Deluxe 4", basiert es zwar auf dem AMD 890FX-Chipsatz - es kann jedoch einen neuen Sockel vorweisen.

Der Sockel AM3+ wird für Zambezi, den kommenden Desktop-Ableger von AMDs neuer High-End-Architektur Bulldozer, benötigt. Eigentlich soll dieser Sockel mit den zukünftigen Chipsätzen der 900er-Reihe kombiniert werden
Quelle

Greetz
neax;)
 
Hm, also langsam sollten wir einen Thread zu machen, das ASRock AM3+ Brett gabs schon im 2011er Thread und die vorherige News über die neuen Opterons bzw. die Bulldozer Slides wurden auch jeweils doppelt besprochen ... muss nicht sein ...
.
EDIT :
.

Aussage vom Themenabend:
Mehr weiß ich nicht *noahnung*
Ich schließe es eigentlich aus, den ansonsten hätten sies nicht gelöscht. Ausserdem ist die Funktionalität von FMA3 und FMA4 ja quasi identisch, würde nicht viel Sinn machen da beides parallel anzubieten. AMD kanns sichs leisten, da sie jetzt eh schon FMA4 haben, und FMA3 ist einfacher, aber andersherum wäre unlogisch.
Das Dell-Angebot scheint aber kein NUMA-System zu sein.
Im Text ist die Rede von zwei 4-Sockel-G34-Boards.

Würde mich wundern, wenn da plötzlich ein 8-Sockel-G34-Board kommen würde.

Hmm also auf der einen Seite gibts ja die Hypertransport HighNodeCount Spezifikation, die läßt solche non-NUMA configs zu.

Auf der andern Seite hat JF AMD auch mal gemeint, dass jeder, der will ein 8P Brett bauen darf. Es würde nur keiner wollen.

Müßte man mal bei AMDzone nachfragen, was das ist .. er weiss das bestimmt.
 
Ich meinte mit 90% die Single-Core-Performance, wenn alle Cores ausgelastet werden.
Aber wie du schon sagtest. Mit der "Rechnung" hätte ich vorsichtiger sein müssen bzw. genauer beschreiben müssen.
Stellt sich auch die Frage ob dem tatsächlich so ist.
Was wenn ein Kern in einem Modul immer Priorität hat und lediglich der zweite darauf warten muss bis eben gemeinsam benutzte Komponenten zur Verfügung stehen um den zweiten Thread abzuarbeiten. Nach Stromverbrauch Gesichtspunkten macht es mehr Sinn den einen Core mit 100% laufen zu lassen und den anderen eben je nach Bedarf zu idlen und so im Durchschnitt vielleicht 80% Leistung zu erreichen.

Unterm Strich bleibt die Leistung eines gesamten Moduls bei 180% - doch ich denke dass der Stromverbrauch nicht identisch bleibt mit 20% Powergating, was in deinem Rechenbeispiel mit 2x90% gar nicht zum tragen kommen würde.
 
Hm, also langsam sollten wir einen Thread zu machen, das ASRock AM3+ Brett gabs schon im 2011er Thread und die vorherige News über die neuen Opterons bzw. die Bulldozer Slides wurden auch jeweils doppelt besprochen ... muss nicht sein ...

es ist wohl eher die frage wozu dieser eröffnet wurde, ausser um "danke" zu sammeln.
 
@Complicated
Wie es GeOrgy schon sagte.
Ein Single-Core-Bulldozer würde eben auch (etwas) anders/schlanker aussehen, als wie jetzt als Modul-Konzept. Vorallem, das Front-End.

Die Frage ist ja auch, ob die 180% (Modul-Konzept) @ Multi-Threaded auch wirklich ein "Bulldozer-Single-Core mit 4-fach-Front-End" gemeint ist und nicht ein "Bulldozer-Single-Core mit 2-Fach-Front-End.

Denn ein K10 mit 4-fach-Front-End hätte wahrscheinlich auch bis 5% mehr Performance als ein normaler 3-fach-Front-End-K10.5. Und weil das Front-End (viel) flexibler ist, könnten wieder bis zu 5% Performance zum K10.5 dazukommen.
(Zahlen aus der Luft gegriffen)
Also, wäre ein hypotetischer Bulldozer-Single-Core mit 4-Fach-Front-End schon 105-110% eines K10.5
Und wenn beim Modul-Konzept 180% eines Bulldozer-Single-Core-4-Fach hätte, könnte das eben immer noch 189-198% @ Multi-Core eines K10.5 entsprechen.

Wenn mit hypotetischer Bulldozer-Single-Core mit 2-Fach-Front-End gemeint ist, könnte das vielleicht nur 90-95% eines K10.5 ausmachen und mit Modul-Konzept dann eben nur 162-171% eines K10.5 (=100%) entsprechen.

Also, der Effizienz-Unterschied von (bis zu) 22% (= 198/162) ist ein erheblicher und entspricht fast dem eines FertigungsSprung auf kleinere Strukuren.
Somit wäre das eine viel zu große Varinaz/Streuung um konkrete Aussage zu machen.
Ehrlich gesagt, würde ich beide Betrachtungen von Bulldozer-Single-Core fast als gleich richtig/falsch bezeichen und somit als Möglichkeit für den "Bulldozer-Single-Core-Bezeichnung" sehen.

Jetzt wäre es interessant zu wissen, ob die 162% jene 160% von Gruffi entsprechen oder ob sich diese Zahlen nur zufällig ähneln.

Power-Gating geht AFAIK in wenigen Takten. Somit kann man jeden Kern sehr schnell schlafen legen/zum idlen bringen, wodurch man keinen Hauptkern braucht.

Da 2,1 GHz nicht das schnellste bei Magny-Cours ist, gehe ich davon aus, dass es auch Interlagos mit mehr als 2,3 GHz gibt. 2,5-2,6 GHz sollte drin sein. Das läge dann auch etwa in dem Bereich, mit dem ich gerechnet habe.
Das interessante ist, beim Upgrade von Magny-Course auf Interlagos wird ja noch "ein Schrank dazugestellt" bzw. 1,8% mehr Nodes.
Also, wenn die Strom- & Kühlerversorgung gleich bleibt, könnte der 2,3Ghz-Interlagos sogar ein hauch weniger Strom verbrauchen als der 2,1 Ghz-Magny-Course, sodass 1,8% mehr Nodes installiert werden könnnen.

Wenn man diese 1,8% den von mir abgeleiteten 3,4-Ghz dazugibt, gehen sich fast exakt 3,5 Ghz-Bulldozer mit 4-Modul aus.
Wobei wenn der Bulldozer @ Desktop mit Turbo 2.0 Sandy-Bridge schlägt, dann wären auch mit starker Selektion & Mondpreise eben höhere Takte ( +200-300 Mhz?) möglich.

Mal sehen, den 8-Core Bulldozer schätze ich schon länger mit zwischen 3,5 Ghz (Realistisch) und 4,0 (zu schön um wahr zu sein, auch wenn in den 4,0 Ghz schon eine Starke Selektion drinnen steckt)
 
@aylano

Kühlleistung

225t für 1,288nodes. 0.175Tonnen Kühlleistung/Node beim CMRS.1 100%
413t für 2,448nodes. 0.168Tonnen Kühlleistung/Node beim CMRS.2 96%

Das heist die Kühlleistung sinkt um 4% nicht um die 1.8%.

Elektrisch

0.792MW für 1288 Nodes 614.9W/Node CMRS.1 100%
1.455MW für 2448 Nodes 594.4W/Node CMRS.2 96.6%

Das selbe wie bei der Kühlleistung.

Rechenleistung

147.26 GFLOPS/CPU CMRS.2 145,9%
100.93 GFLOPS/CPU CMRS.1 100%

Unter dem Stirich 51% mehr Leistung Pro Watt.

EDIT:
Was umgerechnet (/2/2.3*3.2) eine theoretische Peakleistung bei einem Zambezi 4Modul/8Core@3.2 von 110 GFLOP ergibt. Was mehr als die doppelte offizielle Leistung von einem i7-950 wäre.
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten