Bulldozer rollt an....

Status
Für weitere Antworten geschlossen.
u.A. der L² Cache.
 
Hoppla, ist mir wohl irgendwie entgangen....jedenfalls Danke!

Der wirkliche Konkurrent für BD ist natürlich der 6Core-Westmere. Hier fehlt noch etwas der Anschluss, aber es besteht Hoffnung, vor allem, wenn man bedenkt, dass der 32nm-SOI-Prozess offenbar noch Probs hat, und selbst unter diesen Bedingungen BD schon ordentliche Werte zu liefern scheint. Im Laufe der Zeit könnte dann BD noch kräftig zulegen wenn der 32nm-Prozess noch reift und dann noch noch zu einem richtig guten Produkt werden.
Bitte gerne ;) Und ja, für B1 schauts ganz ok aus, C0 sollte gut werden :)
Bei SuperPi hakts noch. Was könnte da wohl im Argen liegen?
Hab gerade erst ne Bemerkung in die News geschrieben. Entweder Cache, oder SuperPi benützt uralt Instruktionen,die AMD aus x86 Kompatibilitätsgründen noch mitschleift, aber nicht sonderlich optimiert hat.
Eigentlich glaube ich an ein Cacheproblem, das auch im türkischen Artikel bestätigt wird, aber irgendwie sind die restlichen Werte schon recht gut ^^

Naja, mal abwarten, hab im Moment auch nicht im Kopf wieviel der Cache bei Cinebench Fritz, etc. bringt. Wenn das nicht viel ist, passts wieder.
 
ich kann den super pi scheiß nicht mehr sehen. wird von mir schon immer boykottiert (auch als intel user).
 
Falls das noch keiner gesehen hat, angebliche erste Benchmarks von BD von donanimhaber, hier auf vr-zone.

Die Benches sehen für einen B1-BD mit 3,2Ghz/3,6Ghz/4,2Ghz (Basistakt/Turbo alle Cores/Turbo für 50% der Cores) offenbar ganz gut aus:

Hier 2 Benches von meinem 1055T @4Ghz CPU & 2.88Ghz Northbridge

3DMark11 = 6121P


Super Pi = 17.193s


Bulldozer
3DMark 11: 6.265 Punkte (P-Setting)
Super Pi (1M): 19,5 Sekunden

Und was soll daran jetzt so besonders sein?

Beim Bulldozer scheint der Cache oder etwas anderes defekt zu sein, ich glaube nicht das AMD mit einem B2 Stepping die Leistung über 30% steigern kann,
die Verschiebung um 2-3 Monate wird wahrscheinlich wegen eines neuen Tapeouts/Respin auf das Cx Stepping solange Zeit kosten.

Edit:
Hat jemand zufällig SuperPi Screens von einem K8 @512KB L2 Cache & 1MB L2 Cache?
.
EDIT :
.

hm evtl. läuft nur 1 Thread pro Modul deshalb so schlechte Werte?
 
Zuletzt bearbeitet:
hm evtl. läuft nur 1 Thread pro Modul deshalb so schlechte Werte?

Schau dir mal die Vergleichswerte beider Tests an:

dein Test Thuban @ 4 GHz
Graphics 5942
Physics 6946
combined 6430

Donanimhaber Bulldozer
Graphics 6063
Physics 7487
combined 6301

Was folgt ist höchst spekulativ:

Der Physikwert (CPU Test?) lag also 541 Punkte = 8% höher. Ich denke bei voller Auslastung aller Recheneinheiten und der Vektoreinheit, wie beim 3dmark CPU Test, läuft der Bulli allerhöchstwahrscheinlich nur noch mit Basistakt. Das bedeutet einen Taktvorteil Thuban von 800 MHz=25 %. Bulli rechnet mit 8 Cores und 4 Vektoreinheiten bei Wald und Wiesencode. Unterstellen wir damit also einen Gleichstand der Recheneinheiten (12). Insofern rechnet Bulldozer ohne Turbo und gemäß seiner Architektureigenheiten, insgesamt 33 % schneller als Thuban.

Allerdings sollte man bedenken, dass Bulldozer trotz Fertigungsproblemen unter Luft schon deutlich über 5 GHz laufen soll. Da würde Thuban bereits den CPU Kühler zum Glühen bringen.
.
EDIT :
.

Mich hat der Super Pi Test (Bulldozer Donanimhaber) noch beschäftigt und ich habe die Verlaufszeiten in eine Tabelle geschrieben, die Zwischenzeiten der loops errechnet und in ein Diagramm übertragen:

Nr Gesamtzeit Zwischenzeit
0 0,281 sek
1 1,139 sek 0,858 sek
2 2,121 sek 0,982 sek
3 3,104 sek 0,983 sek

...
usw.


(x=loop ; y=Zwischenzeit)

Oben=Bulldozer
Mitte=Thuban lt. post von Duplex s.o.
Unten=Test eines Core2Duo mit 3 GHz (von mir gerade gemessen)



Dabei ist mir etwas aufgefallen. Die genauen Werte sind eigentlich nebensächlich, mir geht es eher um den Kurvenverlauf. Was sofort auffällt, ist der stellenweise lineare Verlauf der Werte des Bulldozer. Bei Thuban und Core2 sind jeweils rundere Kurven zu erkennen, bei Bulldozer sind dagegen z.B. die Werte 2-14, bis auf eine Ausnahme identisch. Das heißt die loops laufen bei Bulldozer viel öfter aufeinander folgend gleich schnell ab, als es bei anderen CPUs normal ist. Die Differenz zwischen schlechtestem Wert und bestem Wert ist aber nicht weiter auffällig.

Anzeichen für ein Cachingproblem? Zumindest ist es ungewöhnlich, Fake wäre natürlich auch eine Möglichkeit.
 
Ein Sandy wäre jetzt auch noch interessant. Falls Du Dir die Arbeit machen willst, hier erstbester Googletreffer:
http://extreme.pcgameshardware.de/b...m-32m-bei-festem-cpu-takt-87.html#post2649931

Hier alle vier:
Bulldozer
Sandy
Thuban
Core2



Bulldozer und Sandy scheinen sich tatsächlich sehr zu ähneln und beide wirken eher linear. Auffällig sind höchstens die zwei Kamelhöcker beim Sandy, die Nachladezeiten anzeigen könnten, die beim Bulli viel flacher sind, bzw. ganz fehlen. Aber da bewegt man sich wahrscheinlich schon im Vodoo- und Astrologiebereicht. ;)
 
Mal ehrlich? Wayne. SuperPi sagt nen scheiß aus,

Besser könnte man es wohl nicht sagen.
Mir ist es ein Rätsel dass dieses uralte Dingens überhaupt noch benutzt wird. Ist für mich ein totes Stück Software aus alten Zeiten.
 
Hab gerade erst ne Bemerkung in die News geschrieben. Entweder Cache, oder SuperPi benützt uralt Instruktionen,die AMD aus x86 Kompatibilitätsgründen noch mitschleift, aber nicht sonderlich optimiert hat.
Eigentlich glaube ich an ein Cacheproblem, das auch im türkischen Artikel bestätigt wird, aber irgendwie sind die restlichen Werte schon recht gut
Wenn ich mich richtig erinnere, sagte AMD mal, dass auch älterer Code (x87) von der neuen FPU profitieren soll. Was durchaus plausibel ist, da diese flexibler agieren kann. Vorher ging pro Takt eben nur FADD+FMUL, jetzt geht FADD+FADD, FADD+FMUL und FMUL+FMUL pro Takt. Gerade bei Single Thread Anwendungen wie Super Pi, denen das gesamte Modul und damit die gesamte FPU zur Verfügung steht, würde ich bessere Werte erwarten. Ganz zu schweigen von den sonstigen Verbesserungen. Auf der anderen Seite sind allerdings auch diverse Latenzen gestiegen (FADD reg +1 / mem +4, FMUL reg +1 / mem +4, FDIV reg +18+ / mem +20+, ...). Da bleibt die Frage, wie sich das auswirkt. Im XS meinte jemand, es könnte vielleicht auch der Turbo nicht richtig funktionieren. Wäre auf jeden Fall auch noch eine Option und würde zu den Zeiten passen, 15 Sek bei 4+ GHz, 19 Sek bei 3,2 GHz.


Dabei ist mir etwas aufgefallen. Die genauen Werte sind eigentlich nebensächlich, mir geht es eher um den Kurvenverlauf. Was sofort auffällt, ist der stellenweise lineare Verlauf der Werte des Bulldozer. Bei Thuban und Core2 sind jeweils rundere Kurven zu erkennen, bei Bulldozer sind dagegen z.B. die Werte 2-14, bis auf eine Ausnahme identisch. Das heißt die loops laufen bei Bulldozer viel öfter aufeinander folgend gleich schnell ab, als es bei anderen CPUs normal ist. Die Differenz zwischen schlechtestem Wert und bestem Wert ist aber nicht weiter auffällig.
Interessante Beobachtung. Kann natürlich sein, dass da irgendwas limitiert. Ich würde das jetzt aber nicht unbedingt reininterpretieren. Ein Schwerpunkt bei der Entwicklung von Bulldozer war ja, die Pipeline möglichst konstant hoch auszulasten. Vielleicht liegt es auch einfach nur daran, dass die Durchlaufzeiten so gleichmässig ausfallen.
 
Besser könnte man es wohl nicht sagen.
Mir ist es ein Rätsel dass dieses uralte Dingens überhaupt noch benutzt wird. Ist für mich ein totes Stück Software aus alten Zeiten.
Ja und?
Deswegen kann es trotzdem zum Vergleichen hergenommen werden.
Es läuft überall unter den selben Bedingungen.
 
aber irgendwie sind die restlichen Werte schon recht gut ^^

Auf die DIE-Fläche bezogen, sollte Gulftown zumindest im Mittel geschlagen werden. Deshalb hoffe ich fast, dass bei den Caches noch etwas nicht passt :)

LG
 
Ja und?
Deswegen kann es trotzdem zum Vergleichen hergenommen werden.
Es läuft überall unter den selben Bedingungen.


Es hat nur keinerlei Aussagekraft wie die Gesamtleistung ist.

Oder wie gut halbwegs moderne Implementierungen unterstützt werden.
 
Es hat nur keinerlei Aussagekraft wie die Gesamtleistung ist.

Oder wie gut halbwegs moderne Implementierungen unterstützt werden.
Das steht ja nicht zur Debatte.

SuperPI liefert einen Zahlenwert der auf verschiedenen Plattformen verglichen werden kann.
Nicht mehr und nicht weniger.
Ob das mit SSE.schlagmichtot oder ganz normal über die FPU erreicht wird ist vollkommen belanglos.

Was zählt ist die Vergleichbarkeit und die ist gegeben.
 
Es hat nur keinerlei Aussagekraft wie die Gesamtleistung ist.

Oder wie gut halbwegs moderne Implementierungen unterstützt werden.

War ein Prozessor in SuperPI gut, dann war er auch in Quake 1 / 2 / 3 gut.
SuperPI sagt über die Single-Core-Leistung und dort speziell über skalaren Code schon einiges aus.
Core2Duo war in SuperPI eine Granate, gleichzeitig aber auch in SpecInt & Quake. Weiß/wusste man den SuperPI-Wert, konnte man auch in etwa einschätzen, wo sich die CPU leistungsmässig hinverirrt (ohne mit den bescheuerten Befehlssatzerweiterungen in die irre geführt zu werden).

Ich würde sowieso mal einen ganz anderen Bench vorschlagen - SQLite und dort mehrere große Memory-Tables und dort dann große Joins machen.
 
Keine Sorge - richtige Benchmarks laufen eh über SQL, SAP und Co ... und da sind die Magny-Cours und auch Interlagos nicht schlecht ;D

zum Thema L2 und L3-Leistung der B1 und B2-Steppings : es ist eine BIOS-Bremse von AMD sowie ein kleiner Fehler im Cache beim B1; aber durch B2 bereits seit Monaten gefixt
 
Wenn man sich die Freiverdrahtungselektrik in der commerce street mal näher anschaut darf der Bulli garnicht so viel verbrauchen , sonst geht da das Licht aus...:P
so eine Präsentation in so einem Ghettoviertel?*lol*
 
Core2Duo war in SuperPI eine Granate, gleichzeitig aber auch in SpecInt & Quake.
Nur zur Info, der Core 2 Duo war pro Takt kaum besser als der Core Duo in Super Pi.


Was zählt ist die Vergleichbarkeit und die ist gegeben.
Nicht wirklich. Super Pi ist Uralt Code, der zu einer Zeit entstand als Compiler nur Intel Hardware kannten. Ob da wirklich Vergleichbarkeit gegeben ist, darf doch äusserst bezweifelt werden.

Weil es gerade so schön passt, ich habe mal den System Stability Tester (32-bit) hergenommen, der ebenfalls Pi mittels Gauss-Legendre berechnen kann, und das ganze mit Super Pi auf AMD und Intel verglichen. Die Systeme waren soweit wie möglich gleich konfiguriert, 1,5 GHz und 1 GiB DDR2 CL5. Der einzige wirkliche Unterschied war, dass der Intel Prozessor auf Windows Vista 32-bit lief, während es beim AMD Prozessor Windows 7 64-bit war. Das sollte aber keinen wirklichen Unterschied machen.

AMD Athlon II @ 1,5 GHz



Intel C2D @ 1,5 GHz



Super Pi @ AMD



Super Pi @ Intel



System Stability Tester @ AMD



System Stability Tester @ Intel



Wie man sieht, mit dem uralten Super Pi liegt der C2D deutlich vorne, mehr als 30%. Mit dem aktuellen System Stability Tester sieht das wiederum ganz anders aus und der Athlon II kann über 50% Vorsprung verbuchen. Richtig geht übrigens die 64-bit Version des System Stability Testers ab. Die läuft auf dem Athlon II fast 3 mal so schnell wie die 32-bit Version. Auch deswegen ist Super Pi einfach nur veraltet und obsolet.
 
Äußerst interessant, vielen Dank gruffi! *greater*
 
Gutes Beispiel für Benachteiligung AMDs in den Reviews ... es ist jedoch schon lange bekannt das SuperPI schlecht (dh Intel) optimiert ist (und AMD nur Basis rechnet)
 
War ein Prozessor in SuperPI gut, dann war er auch in Quake 1 / 2 / 3 gut.
SuperPI sagt über die Single-Core-Leistung und dort speziell über skalaren Code schon einiges aus.
Core2Duo war in SuperPI eine Granate, gleichzeitig aber auch in SpecInt & Quake. Weiß/wusste man den SuperPI-Wert, konnte man auch in etwa einschätzen, wo sich die CPU leistungsmässig hinverirrt (ohne mit den bescheuerten Befehlssatzerweiterungen in die irre geführt zu werden).

Ich würde sowieso mal einen ganz anderen Bench vorschlagen - SQLite und dort mehrere große Memory-Tables und dort dann große Joins machen.


Wie du schon sagtest war. Nur was sagt SuperPi heute aus?
 
Wenn ich mich richtig erinnere, sagte AMD mal, dass auch älterer Code (x87) von der neuen FPU profitieren soll. Was durchaus plausibel ist, da diese flexibler agieren kann. Vorher ging pro Takt eben nur FADD+FMUL, jetzt geht FADD+FADD, FADD+FMUL und FMUL+FMUL pro Takt. Gerade bei Single Thread Anwendungen wie Super Pi, denen das gesamte Modul und damit die gesamte FPU zur Verfügung steht, würde ich bessere Werte erwarten. Ganz zu schweigen von den sonstigen Verbesserungen. Auf der anderen Seite sind allerdings auch diverse Latenzen gestiegen (FADD reg +1 / mem +4, FMUL reg +1 / mem +4, FDIV reg +18+ / mem +20+, ...). Da bleibt die Frage, wie sich das auswirkt. Im XS meinte jemand, es könnte vielleicht auch der Turbo nicht richtig funktionieren. Wäre auf jeden Fall auch noch eine Option und würde zu den Zeiten passen, 15 Sek bei 4+ GHz, 19 Sek bei 3,2 GHz.
Mag ja stimmen, aber erstmal muss das Progrämmchen x87 benutzen.
Auf 3DCenter meinte mal ein SeniorMitglied, er hätte es durch den Disassembler gejagt, und es kämen hauptsächlich nur INT Befehle raus. Glaube kaum, dass er mich anlügen wollte ^^
Deswegen hab ich auch schon spekuliert, ob das ausnahmsweise mal ein Fall sein könnte, bei dem die kompletten 3 INT Pipes des K10 gefragt sein könnten.
Aber dafür ist der Leistungsabstand zw. K10 und CoreDuo irgendwie immer noch zu groß. Der CoreDuo hatte ausserdem ja auch noch nur die alten 2Ports des PPro. Wird also kaum an 3issue vs. 2issue scheitern.

Aber egal, SuperPi ist wirklich das allerletzte Programm, über das man sich sorgen machen muss. Schon y-Crnsher wäre besser ;-)
http://www.numberworld.org/y-cruncher/

Noch zu Deinem Test mit dem Systemstab.:
War das trotz 64bit OS auch nur ne 32bit Programm Version? Ansonsten könnte man sich schon nen Unterschied wg. den INT Registern vorstellen.
 
Zuletzt bearbeitet:
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten