Bulldozer rollt an....

Status
Für weitere Antworten geschlossen.
Ich habe die betrachtung auf die Tatsaceh bezgen dass ein int-Core nur 2 ALUs hat... mit dem Frontend hast du recht...
Gerade deswegen trau ich BD mehr IPC zu trotz "nur" 2 ALUs pro Thread als K10.5 das hatte.
Das mit der mittleren Auslastung bei K10.5 war ein beispiel von mir...
aber bedenke, bei dem 3-fach issue des K10.5 sind FPU-Befehle inklusive.
Bei BD-nicht. da ist 2x INT-only + FPU zusätzlich.
Was ich sagen wollte ist eifach dass die simple tatsache dass ein int-core "nur" 2 ALUs hat, deswegen nicht per SE heißen muss dass er bei alltagscode weniger IPC erreichen kann als ein K10.5-Kern mit 3-wide execution es könnte.
Es gibt ja leute die rechnen ein BD-INT-Core hat nur 2/3 der einheiten eines K10.5, also kann er taktbereinigt auch nur 2/3 von dessen performance erreichen... was völliger nonsens ist...
 
Das mit der mittleren Auslastung bei K10.5 war ein beispiel von mir...
aber bedenke, bei dem 3-fach issue des K10.5 sind FPU-Befehle inklusive.
Bei BD-nicht. da ist 2x INT-only + FPU zusätzlich.
Da ich mir einbildete die Auslastung von 2,1 schon mal (öfters) gelesen zu haben und glaubte, dass es sich nur auf die ALUs bezogen hat, ....

Es wäre somit interessant, wie hoch die Auslastung der 3-ALUs (ohne FPU) wäre.
Wenn die bei 1,5 liegt, könnte eben ein Integer-Core von Bulldozer mit 2-ALUs eben eine 25% Steigerung bedeuten, wenn die mit Trace-Cache & flex-Front-End & Co dann die 2-ALUs zu fast 90% auslasten würden.
Es wäre interessant, ob Dresdenboy dazu was genaueres/richtigeres weiß/vermutet.

Eine ALU-Auslastung-Steigerung von 50% (K10.5) auf eventuell 88% (Bulldozer) wäre fast "Zu schön um war zu sein":
Aber so ähnlich sollte es aussehen, da die John-Frühe Aussage die +50%-Performance-Aussge neben +33% mehr Kerne eben nur auf eine geringe Taktsteigerung ~10% anzeichnen, was bedeutet, dass ein Integer-Bulldozer-Core ungefähr so schnell/gut ist wie ein K10.5-Core, wenn nicht sogar besser.

Du schreibst, dass einige !!! nicht Glauben können, dass die 2-ALUs im Vergleich zu den 3-ALUs des K10.5 nicht gezwungerer-Maßen zu geringerer Performance führt.
Mir kommt es so vor, als ob viel mehr Leute !!! fast schon enttäuscht sind, dass ein Bulldozer-Interger-Core @ Multi-Thread-Last eventell nur 3-5% IPC schneller sind als der K10.5-Core.

PS: Interessant finde ich auch die Takt-Anhebung vom Top-Modell des Magny-Course.
Schließlich soll die Aussage von John-Frühe gerade bei der Einführung erfüllt sein und deshalb sollte es ein gutes Zeichen sein, wenn der Takt des Topmodell um 200 Mhz angehoben wird. Das ist nicht wenig, weil das ca. 10% entspricht.
Also, entweder das Wort wird gehalten und das Top-Modell des Server-Bulldozer ist dann noch immer um 50% schneller oder JF kann das Wort nicht halten und es ist nur 40% schneller.

Auch wenn nur das Top-Modell um 200 Mhz bzw. 10% angehoben wurde und der rest nicht (so hoch), sollte gerade das Top-Modell JF-Wort halten, da eben üblich immer mit dem Top-Modell verglichen wird.
 
Zuletzt bearbeitet:
Ich dachte die 2.1 war de mittlere Auslastung der Issue-Ports als solcher, deswegen baut man ja 3-Issue-Kerne... und dann gehört FPU-Code auch dazu.
Zudem musst du unterscheiden ob bei den ALU-Operationen auch AGU-Ops mitzählen. Bzw. eine Adressgenerierung auch einen Issue-Port belegt.

Lange Rede kurzer Sinn, es ist trotz 2-pipelined - Design von BD durchaus möglich dass er in der IPC deutlich vor K10.5 liegt.
Das Problem bei K10.5 waren auch nie die mangelnden ausführungseinheiten... AFAIK war das Frontend zu schmalbrüstig, am Backend hats eigentlich nie gehapert...
Was im umkehrschluss heißt, wenn AMD seine hausaufgaben gemacht hat und das Prefetching, Branch Prediction (auf die ist man ja bei Bobcat so stolz..) Dekoder, Op-Fusion usw. was taugt um die 2 ALUs eines Int-Cores so effizient wie möglich ausgelastet zu halten, ist man schon auf einem sehr guten Weg!
Gerade deswegen lohnt sich ja das CMT-Design, weil man um x86 vernünftig ausgeführt zu kriegen "fette" Decoder braucht... und in diesem Fall gerade der Decoder eine der Shared-Komponenten ist, also Transistoren gespart werden können durch gemeinsame Nutzung. Die FPU als 2. "dicker" Block sowieso.
ALUs sind eigntlich Kleinkram und gehen auf den DIE-Shots fast unter gegenüber dem anderen Zeug...
 
Zudem musst du unterscheiden ob bei den ALU-Operationen auch AGU-Ops mitzählen. Bzw. eine Adressgenerierung auch einen Issue-Port belegt.
Einfachheitshalber hatte ich nur mit ALUs gerechnet. Ich hoffe, der Fehler war nicht zu groß.

Lange Rede kurzer Sinn, es ist trotz 2-pipelined - Design von BD durchaus möglich dass er in der IPC deutlich vor K10.5 liegt.
Soll mir recht sein.
Aber nach jahrelanger AMD-Erfahrung (K10-Einführung) wäre ich schon zufrienden, wenn sie gleichschnell wäre, auch wenn sie mit K7 und K8 schon mehrmals bewiesen hatten, dass sie besser als erwartet sein können.

Gerade deswegen lohnt sich ja das CMT-Design, weil man um x86 vernünftig ausgeführt zu kriegen "fette" Decoder braucht... und in diesem Fall gerade der Decoder eine der Shared-Komponenten ist, also Transistoren gespart werden können durch gemeinsame Nutzung. Die FPU als 2. "dicker" Block sowieso.
ALUs sind eigntlich Kleinkram und gehen auf den DIE-Shots fast unter gegenüber dem anderen Zeug...
Gerade deshalb, wie ich schon erwähnte, könnte es viel Sinn machen die kleine ALU-Fläche @ Turbo deutlich zu übertakten.

Damit wäre das Modul-Konzept einfach genial um das Optimale für Server-Markt (Multi-Threaded) durch vielen Cores und Desktop ("Single-Thread-Performance" mit IPC*Frequenz) hauptsächlich mit hohem Takt anzubieten, ohne einen Bereich etwas benachteiligen zu müssen.

Mit den Gedanken der letzten Tagen bin ich jetzt umsomehr auf Bulldozer gespannt, was und wie das dann genau umgesetzt wurde.
 
IPC ist schonmal ein sehr komplexes Thema, weil da alles reinspielt. Ich hatte schon genug Diskussion im Blog bzgl. IPC und "theoretischer IPC" usw. ;) Hier ist der "Thread": http://citavia.blog.de/2010/10/26/more-bulldozer-info-and-a-deep-gpu-analysis-9794436/#c14365000

Ein Paper, was ich da zitiert habe, ist: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.84.5816&rep=rep1&type=pdf

Dort sind interessante IPC-Werte zu finden. Damit sollte jeder auch ein Gefühl bekommen können, wie die IPC-Zahlen sich durch verschiedene Einflüsse ändern können. Bei älteren AMD-Kernen ist es nicht nur der erzielbare Durchsatz der 3-wide Execution, sondern auch das Speichersubsystem inkl. Caches u. Prefetcher.
.
EDIT :
.

Ich würde eher die Valentinskarte + Schokolade einem Praktikanten zuordnen oder wer macht über 10 Jahre dort ein Praktikum? ^^
Solange AMD den Praktikanten pro Monat $4815 zahlt, würde mancher deutsche Student gern auch 10 Jahre Praktikum machen ;)
http://blogs.forbes.com/jacquelynsmith/2011/02/04/the-best-paying-internships/
 
@Dresdenboy
wie schätzt du aus deiner sicht den Enhanced Bulldozer für 2012 ein?

Die Server DIEs sollen 5 Module haben, bei MCM 10 Module.

Die Desktop Versionen haben aber weiterhin nur 4 Module,

wie soll man hier im Desktop am besten die Leistung um 20-30% steigern? mehr CPU Takt, mehr IPC oder auch spekulativ multithreading für Single Thread?

Enhanced Bulldozer für 2012 muss 20-30% schneller sein als BD1 weil Intels Ivy Bridge in 22nm kommt, der wird geschätzt bis 20% schneller als Sandy Bridge 4/8.

am einfachsten wäre natürlich wenn AMD auch im Desktop 5 Module hätte, dazu noch mehr Takt.

Der K10 hatte 20% mehr IPC als K8, aber dafür hat AMD viel länger als nur 1 Jahr gebraucht, so eine Steigerung bei BD 2012 wäre nicht schlecht aber irgendwie glaube ich nicht daran das der Enhanced BD mehr IPC hat, warum weil die Server 1 Modul mehr haben, mehr Module kostet weniger Zeit aber mehr Chipfläche. wahrscheinlich wird Enhanced BD Desktop 500mhz mehr Takt haben, aber dadurch wird die Leistung nicht viel höher werden, so 10-15%.
 
Zuletzt bearbeitet:
Zumindest für die erste BD-Generation sollten wir auf dem Teppich bleiben.
Hier gilt es erstmal den Rückstand auf Intel wett zu machen und das CMT-Konzept als solches zu erproben und einzuführen.
So Spielchen wie Spekulative multithreading, einzeln per turbo übertaktbare INT-Cores und solche Geschichten erwarte ich frühestens mit BDVer2.
Wir dürfen nicht vergessen dass das ganze Thema schon so komplex genug ist, zu viel ins erste Design reinpacken würde nur für weitere Fehlerquellen sorgen. Und keiner will einen zweiten Barcelona...
 
@Dresdenboy
wie schätzt du aus deiner sicht den Enhanced Bulldozer für 2012 ein?

Die Server DIEs sollen 5 Module haben, bei MCM 10 Module.

Die Desktop Versionen haben aber weiterhin nur 4 Module,

wie soll man hier im Desktop am besten die Leistung um 20-30% steigern? mehr CPU Takt, mehr IPC oder auch spekulativ multithreading für Single Thread?

Enhanced Bulldozer für 2012 muss 20-30% schneller sein als BD1 weil Intels Ivy Bridge in 22nm kommt, der wird geschätzt bis 20% schneller als Sandy Bridge 4/8.

am einfachsten wäre natürlich wenn AMD auch im Desktop 5 Module hätte, dazu noch mehr Takt.

Der K10 hatte 20% mehr IPC als K8, aber dafür hat AMD viel länger als nur 1 Jahr gebraucht, so eine Steigerung bei BD 2012 wäre nicht schlecht aber irgendwie glaube ich nicht daran das der Enhanced BD mehr IPC hat, warum weil die Server 1 Modul mehr haben, mehr Module kostet weniger Zeit aber mehr Chipfläche. wahrscheinlich wird Enhanced BD Desktop 500mhz mehr Takt haben, aber dadurch wird die Leistung nicht viel höher werden, so 10-15%.

Vielleicht liegt der "Trick" ja darin:
Komodo
Market: Server and Performance Desktops
What is it? “Komodo” is AMD’s next generation CPU and is primarily intended for servers and high-performance desktops. “Komodo” will feature next-generation “Bulldozer” CPU cores and, in desktop PC platforms, is designed to couple with DirectX® 11 GPUs to provide enthusiast-level system performance.
Planned for introduction: 2012
[...]
“Sepang”
Market: Server
What is it: Server CPU with up to 10 next-generation “Bulldozer” CPU cores targeting 2-way highly energy efficient and cost optimized Socket C2012 platforms. Complete with three-channel DDR3 memory and integrated PCIe Gen3 I/O.
Planned for introduction: 2012

Ansonsten gibt es wahrscheinlich wieder Prozessverbesserungen. Und der Next-Generation BD Core könnte einige hier schon oft besprochene Features enthalten, die für BD1 noch nicht so wahrscheinlich sind.

Z.B. neben einer für Server-CPUs mit vielen Cores spannenden Hardware Transactional Memory Erweiterung könnte eine Art Loop-Cache ("Branch Redirect Recovery Cache") Einzug halten. Weiterhin ein verbessertes Spannung/Taktfrequenz-Management.

Und erst einmal wissen wir gar nicht, wie der Leistungsunterschied zwischen BD und SB ist und demnach zwischen BD und IB sein würde.
 
So, ich habe jetzt eine Antwort bezüglich der Sockel-Problematik bekommen. Keine Ahnung ob sie für Euch befriedigend ausfällt.


AMD kommentiert prinzipiell keine Gerüchte. Gleichzeitig wurde mir aber bestätigt, dass das alte Statement noch immer aktuell sei!​



Meiner Meinung nach, haben die bei MSI was durcheinander gebracht. Das ist aber nur meine persönliche Meinung. 100%ig sicher kann man sich aber erst zum Launch sein. Bis dahin wird ja noch ein wenig Wasser die Elbe hinunterfließen.

Vielleicht gibt es aber auch auf der CeBIT bereits neue Infos. *noahnung*
 
Wieso fragwürdig?
Dass die MArketingabteilung von AMD nicht grade Apple-Qualität hat dürfte sich ja inzwischen rumgesprochen haben... *noahnung*
 
So, ich habe jetzt eine Antwort bezüglich der Sockel-Problematik bekommen. Keine Ahnung ob sie für Euch befriedigend ausfällt.


AMD kommentiert prinzipiell keine Gerüchte. Gleichzeitig wurde mir aber bestätigt, dass das alte Statement noch immer aktuell sei!​



Meiner Meinung nach, haben die bei MSI was durcheinander gebracht. Das ist aber nur meine persönliche Meinung. 100%ig sicher kann man sich aber erst zum Launch sein. Bis dahin wird ja noch ein wenig Wasser die Elbe hinunter fließen.

Vielleicht gibt es aber auch auf der CeBIT bereits neue Infos. *noahnung*

Ich hab mir eh schon meinen Reim drauf gemacht (siehe MSI Newsthread) und es aus dem Grund abgeschrieben.
AsRock bringt auch jetzt echte AM3+ Bretter und hat schon bekannt gegeben (im handbuch), dass AM3 CPUs (natürlich) darauf laufen .. also für mich ist die Sache glasklar. Frag mich nur, was die bei MSI so rauchen ^^

Auf der cebit sollte es Neuigkeiten geben, pctreiber schrieb ja, dass das AsRock Brett Anfang März verfügbar sein sollte, also ist da wohl der Am3+ Startschuss.
 
Hi

ja das fand ich auch sehr komisch diese Action, bringt ganz schön wirbel solche Aussagen ;)
Aber wenn AM3+ Boards kommen und die AM3 CPU laufen wäre das ja echt nicht schlecht dann könnte ich langsam mein AM2+ aufrüsten :D

lg
 
Kann man ein Modul eigentlich schneller weiterentwickeln als ein normalen core ?!
 
Du mußt die Schaltungen zur Ressourcenverteilung mit anpassen, ich würde von mehr Aufwand ausgehen.
 
Kann man ein Modul eigentlich schneller weiterentwickeln als ein normalen core ?!
Öh .. sollte sich nicht viel geben. Uncore wird vermutlich einfacher, da man pro 2 "Threads" nur einen Anschluß braucht, aber sonst ... *noahnung*
 
Ich habe jetzt noch mal bei AMD nachgefragt. Mal gucken, ob ich eine Antwort bekomme.

Zu der MSI-Geschichte will ich nur noch folgendes sagen: Wir hatten noch etwas eMail-Verkehr, der aber nicht wirklich ergiebig war und eher noch weiter verwirrt hat. Mich würde mal interessieren, mit wem dieser eMail-Austausch auf CB gelaufen ist. Wenn es der gleiche Mitarbeiter bei MSI war, würde das für mich einiges erklären.
Über LoRDxRaVeN hast du ja die Namen von mir bekommen. Waren das nun die gleichen Leute beim MSI Support, mit denen du den Austausch hattest?
 
Das ist echt komisch, denn das bedeutet ja, dass dort wohl ein Teil des Support-Teams dies behauptet. Schließlich haben mir 2 unterschiedliche Mitarbeiter von MSI das gesagt.

Allerdings zeigt doch die ASRock AM3+ Platine, dass der MSI Support Mist erzählt. Sowohl auf der Page, als auch im Handbuch zum ASRock AM3+ Board stehen explizit alle AM3 Modelle die auf dem Sockel AM3+ unterstützt werden. Der eine Mitarbeiter vom MSI Support behauptet ja, dass AM3 CPUs nicht im AM3+ Sockel unterstützt werden.
 
Kann ja auch einfach sein, daß dieser "enhanced BD" einfach das ist, was der Thuban zum Deneb darstellt, also einfach 6 statt 4 Module, etwas mehr Cache und ein paar minimale Tweaks (bzw. auch die Gelegenheit für Bugfixes). Die 10 Kerne könnten dann damit erklärbar sein, daß ein Modul abgeschaltet wird, um mit der TDP und der Ausbeute besser klarzukommen. Kann AMD ja später immer noch freischalten, wenn die Fertigung so gut geworden ist, daß man die Spannung senken kann.

Der eine Mitarbeiter vom MSI Support behauptet ja, dass AM3 CPUs nicht im AM3+ Sockel unterstützt werden.
Das muß ja nun völliger Käse sein. Einzig logisch ist, wenn AM3+, wie der Name schon impliziert, ein Plus gegenüber dem AM3, und keine Nachteile oder irgendwas wegrationatisiert. Ich denke, wenn kein Upgrade möglich, also grundlegend anders wäre als bei AM2/AM2+, hätte man sich einen komplett neuen Namen ausgedacht, wie bei den Server- oder Fusion-Sockeln. Da kommt man ja schon bei Namen wie "Sockel F" und "Sockel C32" nicht auf die Idee, daß da was kompatibel wäre.

Wenn das bei MSI mehrere behaupten, muß es dadurch nicht richtiger werden, es kann auch einfach bedeuten, daß die alle dasselbe interne Memo mit falscher Interpretation gelesen haben.

Gut, daß das für mich in jedem Fall irrelevant ist, weil ich von AM2 wechsele und eh alles neu brauche ;D
 
"enhanched BD" ist eher ein neues Stepping als mehr, wenn der überhaupt kommt, da nächstes Jahr schon Next-gen BD kommt.

Es scheint als wüsste AMD nicht wie sie dem sagen will was nächstes Jahr kommt, in einigen Folien ist es "NEXT-Gen BD" in anderen "Enhached BD", wobei egal wie sie dem CPU core nächstes Jahr sagen keine zusätzlichen Module kommen werden laut Roadmap. Da wird eher die ST-Performenc angehoben und sonnst an der CPU detais soptimiert.
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten