Bulldozer rollt an....

memory_stick · 26.08.2011

Definiere IPC....

mfg memory_stick

Twodee · 26.08.2011

Definition hin oder her, ein E350 mit 2x1.6Ghz ist langsamer als ein alter X2 mit 1.5Ghz. Mal mehr, mal weniger. Wenn Geogy mit K8 IPC-niveau den Bereich von bis zu -20% (Rückstand in Rosinen-Anwendungen) einschließt, habe ich nichts gesagt

memory_stick · 26.08.2011

Das wollte ich auch nicht bestreiten, dass ein Bobcat Core xGHz langsamer (mal mehr mal weniger) ist als ein K8 Core.
Es ging mir nur um deine IPC, die ja, wie wir alle wissen, ziemlich variabel und sicherlich nicht eindeutig zu bestimmen ist.

Und ich will jetzt keine IPC-Diskusion lostreten, schon gar nciht auf Basis der Prozentangaben von John Frühe oder anderer AMD Marketingmanager..

mfg memory_stick

Twodee · 26.08.2011

um meine IPC? Georgy hat das böse Wort in den Mund genommen.

Ge0rgy · 26.08.2011

Ich bezog mich auf gruffi.
Es geht doch schlicht darum, dass die schlichte tatsache dass ein int-core 2-issue ist, immer herangezogen wird um zu untermauern dass die BD-IPC unter der eiens K10 liegen müsste.
Ich wollte Bobcat als Gegenbeispiel anführen, da ist das nämlich nicht immer der Fall.
Ob die einen oder die anderen "rosinen anwendungen" sind, wo das Speicherinterface evtl. mehr limitiert als die fähigkeiten des Kerns, lasse ich mal offen. Cinenench auf einem Bobcat ist sinnfrei.
abgesehen davon, dass Bobcat auch jeweils nur ein wesentlich schmaleres Frontend zur Verfügung hat...
aber wie auch immer, die diskussion ist mühselig.
so viel länger als bei K10 ist die pipeline auch nicht... also kann man nicht wirklich von hochtakt-design alla P4 sprechen... damit macht eine geringere IPC als bei K10 absolut keinen Sinn. AMDs Ingineure sind doch nicht völlig Gaga... es wäre bestimmt auch kein großes Drama mehr gewesen die Int-Cores 3-Issue auszulegen... bei der schieren Größe eines Moduls hätte das sicherlich auch nicht mehr viel Ausschlag gegeben am Transistorbudget (ALUs kosten doch fast nichts..)
Wenn man das nicht getan hat, gab es einen Grund dafür. *noahnung*

Daher bin ich dafür diese ewige Diskussion über IPC zu vertagen bis BD raus ist.
Übrigens hat JF-AMD selbst schon x-mal gesagt dass die IPC im vergleich zu K10 steigt... "BD will be faster Clock for clock..." - und das ist eine sehr deutliche Aussage!

Opteron · 26.08.2011

Kurze Infos zum IPC Thema & Bobcat:
Da muss man ganz klar zw. INT und FPU Unterscheiden. Die INT IPC ist ganz gut, und Bobcats Winz FPU schlägt sich mMn verdammt gut, aber ist natürlich langsamer als ne dicke 128b K10 FPU.

Trotzdem bleibt müßig auch nur die INT Performance zw. Bobcat & Bulldozer zu vergleichen. Zwwar sind beide 2issue Designs, aber das wars dann auch schon bei der Gemeinsamkeit ...

Ge0rgy · 26.08.2011

naja, sie haben beide physische registerfiles und können OoO Loads/stores, was K10 nicht beherrscht.
Also sogesehen haben die INT cores von BD und Bobcat wohl mehr miteinander gemeinsam als mit K10... ?
Deswegen sit das antürlich noch lange kein Maßstab, schon klar.

aylano · 26.08.2011

Markus Everson schrieb:
Trinity steht mit Bulldozer-Core auf AMDs Roadmap für Mobilgeräte. Wenn man davon ausgeht das AMD es nicht schafft hat den Zusammenhang von mit steigendem Takt auch immer steigender TDP zu egalisieren (was wahrscheinlich ist, also das sie es nicht schaffen), dann muß Trinity im Mobilsektor mit moderaten Taktfrequenzen antreten. Um mit Core mithalten zu können darf die mittlere IPC dann nicht geringer sein als bei K10.5.

Intel hatte dagegen beim P4 von vornherein den Mobilsektor ausgeklammert und dafür den PentiumM vorgesehen. Insofern spricht einiges dafür, das Bulldozer kein P4-Nachfolger wird.

Gute Aussage.
Das mit dem Trinity ist mir auch erst vor paar Tagen bewusst geworden.

Es gab schon 2 mobile Pentiums 4
Northwood ging ja noch, der mit geringeren Spannungen trotzdem noch mehr Strom (35W) als die Desktop-Pentiums 3 (25-35W) verbrauchte, sowie 50% mehr TDP als der mobile Nachfolger alias Pentium M.
Presscott war mit Low-Volt-Spannungen in Sachen TDP (88W) jenseits von gut und Böse.

Kurz gesagt @ Trinity
Höhere Taktraten bei niedriger IPC @ K10.5 klingen eher unwahrscheinlich
Vorallem wenn man höheren (relativen) Stromverbrauch aufgrund der mehr als doppelten Modulgrößen bzw. größeren "Core"-Größe sowie höheren Logik-Anteil bzw. geringeren Cach-anteil annimmt, der dann eigentlich keine/kaum höheren Takte zulässt.
Da hätte es dann mehr Sinn, Llanos-Fertigung zu optimieren.

Puma & Tigris ist doch ein Gutes Beispiel.
Um den relativ höheren Stromverbrauch nicht zu geringeren Takten zu führen, wurde die K10.5-Einführung auf Puma & Tigris aufgeteilt.
Mit Puma kam das K10-iMC/Uncore, was zu gleichen Taktraten wie dem Vorgänger führte.
Mit Tigris kam der K10.5-Core, der im Low-End-Markt (M3x0) sogr zu geringeren (100-200Mhz) als der Vorgänger alias QL führte.

Zusammengefasst.
Die sofortige Einführung von Bulldozer im Notebook-Markt ist ein Gutes Zeichen, der weniger auf höhere Takte mit geringeren IPC hindeutet.
Vorallem, bei angekündigten <18W-TDP-Notebook-CPUs.

Die 1,9 Ghz @ Llano könnte auch auf eine Marketing-Strategie hindeuten, wo nach Llano-Fertigungs-Problemen nur Trinity auf 2,x Ghz kommen soll.
(ähnlich Llano-Desktop mit 2,9 Ghz)

TNT · 26.08.2011

Markus Everson schrieb:
Trinity steht mit Bulldozer-Core auf AMDs Roadmap für Mobilgeräte. Wenn man davon ausgeht das AMD es nicht schafft hat den Zusammenhang von mit steigendem Takt auch immer steigender TDP zu egalisieren (was wahrscheinlich ist, also das sie es nicht schaffen), dann muß Trinity im Mobilsektor mit moderaten Taktfrequenzen antreten. Um mit Core mithalten zu können darf die mittlere IPC dann nicht geringer sein als bei K10.5.

...

Nur ergaenzend - AMD konnte aber vermutlich leider noch nicht ahnen bei der Entwicklung von Trinity, dass der Prozess/das Design/beides ansprechenden Takt bei moderaten Verbrauch erlaubt. Sprich fuer Trinity als mobiler Gegenspieler fuer Intel sieht es moeglicherweise es nicht so gut aus.
Aber vielleicht wird Trinity oder der BD2 Core auch genau das, was BD werden sollte ...alias PhI vs PhII.

Ge0rgy · 26.08.2011

Ähm...wir wissen noch nichtmal was BD wird und du redest davon was BD2 werden soll? Oo *noahnung*

tex_ · 26.08.2011

Ge0rgy schrieb:
naja, sie haben beide physische registerfiles und können OoO Loads/stores, was K10 nicht beherrscht.
Also sogesehen haben die INT cores von BD und Bobcat wohl mehr miteinander gemeinsam als mit K10... ?
Deswegen sit das antürlich noch lange kein Maßstab, schon klar.

Da würde ich gerne das hier anmerken:
"The original K8 had a totally in-order memory pipeline, while Istanbul had a non-speculative out-of-order memory pipeline – loads could only move ahead of stores known to have a different address. Bulldozer improves this further with a dependence predictor that will determine when loads can speculatively pass stores. This latter technique is referred to as memory disambiguation by Intel and first showed up in the Core 2 Duo."
siehe Quelle.

Wenn das stimmt, konnte K10 oder K10.5 auch schon OoO in der Memory Pipeline arbeiten, wenn auch recht eingeschränkt. Bulldozer wird hier denke ich auch noch nicht alle Befehle perfekt OoO abarbeiten können (wie schaut es z.B. mit dem Verschieben von 2 Store Befehlen aus?), aber es ist der IPC auf alle Fälle zuträglich wenn hier Fortschritte gemacht werden.

Ge0rgy · 26.08.2011

okay, danke für die klarstellung

gruffi · 26.08.2011

Twodee schrieb:
Tut er das?

Ich denke nicht: http://www.anandtech.com/show/4023/the-brazos-performance-preview-amd-e350-benchmarked/3

da fehlen manchmal bis zu 20% bei gleichem Takt

Wenn die FPU zum tragen kommt, ja. Bei Integer liegt Bobcat jedenfalls ziemlich nah am K8, siehe hier. Bobcats schwach dimensionierte FPU kann man sowieso nicht als Gradmesser für Bulldozer hernehmen. Und gerade die Integer EUs, wie Ge0rgy schon sagte, werden ja immer als Argument herangezogen, warum die IPC bei Bulldozer sinken soll.

aylano · 26.08.2011

TNT schrieb:
Nur ergaenzend - AMD konnte aber vermutlich leider noch nicht ahnen bei der Entwicklung von Trinity, dass der Prozess/das Design/beides ansprechenden Takt bei moderaten Verbrauch erlaubt. Sprich fuer Trinity als mobiler Gegenspieler fuer Intel sieht es moeglicherweise es nicht so gut aus.

Wenn AMD Probleme mit Trinity hätten, hätten sie die 17W-TDP eher nicht angekündigt, kurz nachdem sie generell erstmals einen laufenden Trinity-Notebook zeigten.

Aber vielleicht wird Trinity oder der BD2 Core auch genau das, was BD werden sollte ...alias PhI vs PhII.

Wenn die "Bugs-Roadmap" stimmt, dann zeigt es "ähnliche" Probleme von Barcelona. Also, anstatt sich voll auf die Performance (=Performance-pro-Watt) zu konzentrieren, muss großer oder vielleicht diesesmal aufgrund höherer Taktraten eher ein mittelmäßiger ein Teil der R&D-Kräfte sich aufs Bug-Entfernen beschäftigen.
Mich würde es nicht überraschen, wenn Komodo & Trinity die ersten Bulldozer-Core wären, wo fast vollständig aufs die Performance optimiert wurde, sodass BD1 --> BD2 ähnlich wie PhI vs. PhII aussehen könnte

@gruffi
Warum ist K10 vs Bobcat in der Integer-Performance 30% schneller, aber in Chinebench gar 50%??
Weil in Chinebenche 80% Integer- und 20%-FP limitiert, während Sandar 100% Integer limitiert?

Twodee · 26.08.2011

@gruffi
Merci für den Link. Bei SIMD INT liegt er sogar deutlich vor einem K8. Nicht schlecht!

OBrian · 26.08.2011

aylano schrieb:
Wenn AMD Probleme mit Trinity hätten, hätten sie die 17W-TDP eher nicht angekündigt, kurz nachdem sie generell erstmals einen laufenden Trinity-Notebook zeigten.

Kein Argument, denn so eine TDP ist eine Zielvorgabe. Wenn man die Chips nicht so produzieren kann, dann muß man sie eben runtertakten, bis sie die TDP einhalten, oder stärker selektieren, notfalls auch ganz einstampfen. Aber in den Marktsegmenten, wo das Zeug verkauft werden soll, ist die TDP wesentlich wichtiger als die Performance. Da kann man nicht einfach kurzfristig sagen, "die 17W schaffen wir nicht, machen wir 20W draus", dann springen alle Notebookhersteller im Karee, schließlich sind die Designs dann schon längst fertig.

Ge0rgy · 26.08.2011

Das mag sein, aber du kannst im Vorfeld schon abschätzen dass es in einem sehr TDP senstiven bereich intelligenter sein könnte ein IPC-starkes Design mit niedrigenre Taktraten zu platzieren als ein hochtaktdesign.
Im klartex, wäre BD so brutal P4-Artig, hätte AMD in Trinity eher Bobcat-derivate gesteckt als BD-Module.

TNT · 26.08.2011

Ge0rgy schrieb:
Ähm...wir wissen noch nichtmal was BD wird und du redest davon was BD2 werden soll? Oo

Reine Spekulation wie BDI zu BDII (Core) stehen koennte..mit Anleihen in der juengsten Geschichte AMDs
.
EDIT :
.

aylano schrieb:
Wenn AMD Probleme mit Trinity hätten, hätten sie die 17W-TDP eher nicht angekündigt, kurz nachdem sie generell erstmals einen laufenden Trinity-Notebook zeigten....

Zum einen Ankuendigen kann mal viel - aber auch wenn es 17W TDP Typen geben soll, wurde wenig zum Takt oder Anzahl Cores, IGPU etc. gesagt.
Sprich das eine und das andere schliessen sich nicht unbedingt aus...
.
EDIT :
.

OBrian schrieb:
....

Dito.

Markus Everson · 26.08.2011

aylano schrieb:
Warum ist K10 vs Bobcat in der Integer-Performance 30% schneller, aber in Chinebench gar 50%??

Gute Frage. Ich habe auch eine: warum sollte die Performance Bobcat vs. K10 Thema im Bulldozer Thread sein?

aylano · 26.08.2011

OBrian schrieb:
Kein Argument, denn so eine TDP ist eine Zielvorgabe. Wenn man die Chips nicht so produzieren kann, dann muß man sie eben runtertakten, bis sie die TDP einhalten, oder stärker selektieren, notfalls auch ganz einstampfen. Aber in den Marktsegmenten, wo das Zeug verkauft werden soll, ist die TDP wesentlich wichtiger als die Performance. Da kann man nicht einfach kurzfristig sagen, "die 17W schaffen wir nicht, machen wir 20W draus", dann springen alle Notebookhersteller im Karee, schließlich sind die Designs dann schon längst fertig.

Du erklärst ja, wie schwierig solche ULV-CPUs sind.

Also, sie müssen nicht nur selektiert werden und Runtergetaktet werden.
Wobei du das wichtigste vergessen hast.
Nähmlich das Senken der Spannung.

Nachdem Llano jetzt schon genug Fertigungsprobleme hat, ist es sicher nicht leichter geworden, ULV-CPUs zu machen. Vorallem, wenn es jetzt keine 17W-TDP-Llanos gibt, auch wenn es nur mit 2-Cores wären.
(Soviel ich weiß, haben die 35W-TDP-Llanos auch 1,1 Volt.)

Nicht umsonst sind ULV-CPUs teurer und kommen aufgrund ausgereifter Fertigung & besserer Selktion 1-2 Quartale später als die Standard-CPUs.
Jene Leute, die dann diese teuren CPUs leisten können, benötigten dann auch entsprechend viel Performance, dass ein übermäßiges Runtertakten auch seine Starken Nachteile hat.

Somit wäre es nicht überraschend, wenn die 17W-TDP-CPUs trotz Ankündigung dann im 2H 2012 kämen.

Wenn sie die 17W-TDP CPUs in Masse herstellen wollen, dann müsste die Fertigung & Architektur entsprechend gut sein, um entsprechend Massen zu liefern.

TNT schrieb:
Zum einen Ankuendigen kann mal viel - aber auch wenn es 17W TDP Typen geben soll, wurde wenig zum Takt oder Anzahl Cores, IGPU etc. gesagt.
Sprich das eine und das andere schliessen sich nicht unbedingt aus...

Die 2- statt 4-Cores lasse ich als einziges aber sehr starken gewichteten Gegenargument gelten!!!!!

Grundsätzlich hat AMD selten ULV-CPUs gebraucht und wenn sie es brachten, war das Ziel, die Mainstream-CPUs mit Spannung & Takt-Senkungen zu machen.
Momentan ist Llano (4-Core) mainstream.
Die Seltenheit von ULV-CPUs ist der Grund, warum ich der 17W-Aussage hohem Gewicht bringe. Vorallem, da die Aussage recht kurz nach dem Ultrabook-Ankündigung gemacht wurde. Und Ultrabooks im Jahre 2012 sind AFAIK 4-Core-ULV-CPUs @ 17W-TDP.

Um jetzt das Ursprungs-Posting nicht zu verlieren.
Bulldozer muss bei Multithread mindestens ungefähr so viel IPC wie der K10 haben, sonst wird es bei Notebooks nicht einfach was vernünftiges rauszubringen, da Taktsteigerungen im Niedrig-Voltbereich nicht soo einfach sind bzw. im Notebook-Bereich keine Spannungsteigerungen (siehe Llano-Desktop) möglich sind.

gruffi · 26.08.2011

aylano schrieb:
Warum ist K10 vs Bobcat in der Integer-Performance 30% schneller, aber in Chinebench gar 50%??
Weil in Chinebenche 80% Integer- und 20%-FP limitiert, während Sandar 100% Integer limitiert?

Wie die Anteile bei Cinebench ausschauen, keine Ahnung. Es sollte aber definitiv auch FP Performance eine Rolle spielen. Im Gegensatz zu den Integer Benches.

Ge0rgy · 26.08.2011

Wenn ich mir das so ansehe...
2-Issue, Memory Disambiguation, Physisches Register-File, getrennte Verarbeitung von ALU und AGU instruktionen (nicht mehr direkt paarweise wie beim K10) und direkt nach den decodern trennt sich das Ganze auf in den INT und den FP-Pfad... mit jeweils eigenem Scheduling etc.
Das trifft doch ebenfalls alles auf einen BD-Int-Core zu, wie auf eine Bobkatze...
Also zumindest von der generallen Funktionsweise her scheinen sich die beiden wesentlich ähnlicher zu sein als sie es gegenüber K8 / K10 sind.
Die Detail-Parameter sind natürlich verschieden, caches, puffergrößen... der FP-Pfad sowieso... dennoch... nicht uninteressant...
Ich frage mich grade ob der hypothetische BD-Singlecore überden wir mal als Referenz spekuliert haben wohl eine art "super-bobcat" gewesen wäre... zumidnest strukturell... nur mit der fetten FPU aus BD und wohl 3 oder 4-issue INT... *noahnung*

immerhin haben wir ja ganz zu anfang auch schon die 2ALU/2AGU-Teilung pro INT-Core erraten weil wir die selbe "4 pipelines"- Struktur schon bei einem Bobcat-schaubild widererkannten, wo es detailierter beschrieben stand als bei BD... *noahnung*

Vielleicht rede ich nonsens... aber langsam denke ich dass die beiden Architekturen den selben Ursprung haben... nur der eine wurde in Richtung low-Power entwickelt und der andere bekam CMT verpasst und das BD-Modul war geboren...

gruffi · 26.08.2011

Ge0rgy schrieb:
Wenn ich mir das so ansehe...
2-Issue, Memory Disambiguation, Physisches Register-File, getrennte Verarbeitung von ALU und AGU instruktionen (nicht mehr direkt paarweise wie beim K10) und direkt nach den decodern trennt sich das Ganze auf in den INT und den FP-Pfad... mit jeweils eigenem Scheduling etc.
Das trifft doch ebenfalls alles auf einen BD-Int-Core zu, wie auf eine Bobkatze...
Also zumindest von der generallen Funktionsweise her scheinen sich die beiden wesentlich ähnlicher zu sein als sie es gegenüber K8 / K10 sind.

Sehe ich ähnlich. Ich habe auch das Gefühl, die Pipelines beider Architekturen haben den gleichen Ursprung. Bulldozer ging halt mehr Richtung Performance und CMT, bei Bobcat ging es eher um geringen Energiebedarf.

Was ich mich allerdings frage, ein Bobcat Kern braucht in 40 nm etwa 1/4 der Fläche eines Orochi Moduls (ohne L2). In 32 nm bräuchte Bobcat entsprechend weniger, etwa 1/5 oder 1/6. Würde es nicht Sinn machen, ein Serverdesign nur aus Bobcat Kernen zu basteln? Die FPU könnte man notfalls sicherlich auf 128-bit aufbohren, um bei FP nicht zu viel Performance zu verlieren. Das sollte nicht zu viele Transistoren kosten. Statt 8 Module und 16 Threads für Interlagos mit ~2,5 GHz hätte man dann bei vergleichbarer TDP vielleicht 32-40 Kerne / Threads bei ~2 GHz. Ok, hört sich ein bisschen wie Larrabee an. Als GP Many-Core Prozessor finde ich das Konzept aber nicht so schlecht. Nur als GPU taugt es halt nicht.

Ge0rgy · 26.08.2011

Hmm...würden 128bit denn reichen? - ich meine, mit AVX-Support bräuchte man ja 265bit eigentlich...
Aber so betrachtet hast du recht... man fragt sich irgendwie was Orochi mit all der Fläche anfängt...?
ok, die packungsdichte des 40nm prozesses von tsmc mag auch besser sein als der 32nm von GF... trotzdem wäre das ein interessanter ansatz... und zeigt irgendwie dass BD uns eigentlich überraschen muss... irgendwas müssen sie mit all den Transistoren ja angefangen haben... *noahnung*

Twodee · 26.08.2011

gruffi schrieb:
.....

Was ich mich allerdings frage, ein Bobcat Kern braucht in 40 nm etwa 1/4 der Fläche eines Orochi Moduls (ohne L2). In 32 nm bräuchte Bobcat entsprechend weniger, etwa 1/5 oder 1/6. Würde es nicht Sinn machen, ein Serverdesign nur aus Bobcat Kernen zu basteln? Die FPU könnte man notfalls sicherlich auf 128-bit aufbohren, um bei FP nicht zu viel Performance zu verlieren. Das sollte nicht zu viele Transistoren kosten. Statt 8 Module und 16 Threads für Interlagos mit ~2,5 GHz hätte man dann bei vergleichbarer TDP vielleicht 32-40 Kerne / Threads bei ~2 GHz. Ok, hört sich ein bisschen wie Larrabee an. Als GP Many-Core Prozessor finde ich das Konzept aber nicht so schlecht. Nur als GPU taugt es halt nicht.

Wie groß würde der passende UnCore-Teil aussehen, welcher die 20 Cores ordentlich versorgen könnte?

Bulldozer rollt an....

Lieutnant

Lord of the Stats, Special, ,

Lieutnant

Lord of the Stats, Special, ,

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Fleet Captain Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Lord of the Stats, Special, ,

Moderation MBDB, ,

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Lord of the Stats, Special, ,

Ähnliche Themen

Redaktion
☆☆☆☆☆☆