Bulldozer auf Weltreise (BD rollt an Part II)

Oi!Olli · 13.10.2011

Ge0rgy schrieb:
In manchen Religionen warten Millionen Anhänger seit jahrtausenden auf ihren Messias...
Der "Endkunde" den die CPU-Leistung überhaupt interessiert, der dann noch Fan einer Underdog-Firma ist und weiss was er zu kaufen hat ist:
1. eine Minderheit, für die sich eine extra Arhitektur aufzulegen nicht lohnt, grade im Zeitalter von cloud-Computing und Mobile-Fokus
2. Einfach nur einfältig, wenn er sich von ein par % leistung abschrecken lässt, und so tut als wäre eine CPU langsam nur weil sie nicht alles in dern schatten stellt.
3. Größtenteils mit CPU-Leistung en masse versorgt
oder 4. Auf Schwanzvergleich aus. Und aus dem alter sind die meisten Ingineure nunmal raus.

1. Den Endkunden kannst aber gut damit locken das die CPU von Hersteller x schneller ist. Der weiß nämlich oft gar nicht das er eine Maschine hat die er gar nicht braucht. Cloud kommt zwar so langsam ist aber weit davon weg eine Rolle für den Nomaluser zu spielen. Und selbst dort liegt der Fokus z. Z. eher auf das auslagern von Dokumenten nicht das auslagern von Rechenoperationen. Im mobilen Bereich steigt die Porzessorleistung übrigens auch weiter.

2. Das Problem ist für nur ein paar € mehr bekommst mehr Rechenleistung bzw so wie es zur Zeit ausschaut bekommst sogar von der selben Firma einen fast gleichwertigen Prozessor für weniger Geld.

3. Stimmt aber willst ihnen das zum Vorwurf machen? Intel und AMD leben nun einmal davon das die Leute immer mehr Leistung wollen obwohl sie, sie nicht brauchen. Und sie bedienen ja dieses Bedürfnis auch. Sonst würde es einen i7 oder einen X6 für Normalkunden gar nicht geben.

4. Das stimmt ja aber es geht hier ja wohl um den Endkundenmarkt und nicht um Server. Und da ist der Bulldozer eher enttäuschend.

Btw wie schlägt sich eigentlich der neue Opteron?

Fabian_HT4U · 13.10.2011

Lynxeye schrieb:
Inzwischen gibt es auch ein paar Linuxergebnisse:
zwar nicht überragend, aber wenigstens im Vergleich zum X6 1100T sehen die Ergebnisse im Multithreaded Benches gar nicht soo schlecht aus.

Bei C-Ray geht da aber ne Menge mehr, wenn man will

http://ht4u.net/reviews/2011/amd_bulldozer_fx_prozessoren/index17.php
Ich hab da mal die Laufzeit halbieren können, dank FMA und AVX...

gruffi schrieb:
Kein Thema. Opteron hatte hier mal einen schönen Artikel zu Bobcat geschrieben. Da ist auch nochmal eine Übersicht zur K8 Pipeline, die sich praktisch nicht geändert hat mit K10. 12 Stufen für Integer, 17 mit FP. Die Infos zu Bulldozer deuten nun auf 3 weitere Stufen hin, also 15 für Integer, 20 mit FP. Genau diese Anzahl von Zyklen gibt auch der Optimization Guide für Branch Misprediction an, was ein ziemlich sicheres Indiz für die Länge der Pipeline ist. Eine konkrete Bestätigung habe ich von offizieller Seite allerdings noch nicht gesehen. Inwiefern das mit Intel vergleichbar ist, lässt sich schlecht sagen, da Intel die Integer und FP Einheiten nicht trennt. Nehalem hat meines Wissens aber mindestens 16 Stufen, Sandy Bridge mindestens 14. Die Länge der grundlegenden Pipeline (Integer) würde also genau zwischen Nehalem und Sandy Bridge liegen.

Intel hat uns auch bestätigt das Nehalem 16 hat und SB weniger als Nehalem hat (auch hier wollte man nichts genaues sagen), also demnach 14 oder 15. Allerdings würde ich nicht so weit gehen wollen, zwei vollkommen unterschiedliche Architekturen (AMD vs. Intel) anhand ihrer Pipelinestufen einzuordnen...

Grüße
Fabian

Dresdenboy · 13.10.2011

Fabian_HT4U schrieb:
Bei C-Ray geht da aber ne Menge mehr, wenn man will
http://ht4u.net/reviews/2011/amd_bulldozer_fx_prozessoren/index17.php
Ich hab da mal die Laufzeit halbieren können, dank FMA und AVX...

Was für ein Kompilat lief denn als "AMD FX-8150" ("ohne alles")?

Intel hat uns auch bestätigt das Nehalem 16 hat und SB weniger als Nehalem hat (auch hier wollte man nichts genaues sagen), also demnach 14 oder 15. Allerdings würde ich nicht so weit gehen wollen, zwei vollkommen unterschiedliche Architekturen (AMD vs. Intel) anhand ihrer Pipelinestufen einzuordnen...

Da kann ich nur zustimmen.

Fabian_HT4U · 13.10.2011

Dresdenboy schrieb:
Was für ein Kompilat lief denn als "AMD FX-8150" ("ohne alles")?

Normal gebaut mit -O3, aber ohne weitere Flags, also kein SSEx - falls du das meinst.

grüße
Fabian

mibo · 13.10.2011

Lynxeye schrieb:
Inzwischen gibt es auch ein paar Linuxergebnisse:
zwar nicht überragend, aber wenigstens im Vergleich zum X6 1100T sehen die Ergebnisse im Multithreaded Benches gar nicht soo schlecht aus.

Danke, das sieht ja ganz gut aus.

Dresdenboy · 13.10.2011

Fabian_HT4U schrieb:
Normal gebaut mit -O3, aber ohne weitere Flags, also kein SSEx - falls du das meinst.

Aha. Mich interessierte konkret, ob der Compiler auch noch versucht hat, den optimalen Code für BD zu generieren (unabhängig von den Erweiterungen). Wenn kein -mtune=bdver1 oder so im Spiel war, wäre der Code dann für generic optimiert.

Fabian_HT4U · 13.10.2011

Dresdenboy schrieb:
Aha. Mich interessierte konkret, ob der Compiler auch noch versucht hat, den optimalen Code für BD zu generieren (unabhängig von den Erweiterungen). Wenn kein -mtune=bdver1 oder so im Spiel war, wäre der Code dann für generic optimiert.

Gibt es so eine Option schon für den aktuellen GCC? Ich habe nämlich extra danach gesucht und nur eine Option für den K10 gefunden. Sprich bei BD gabs kein -mtune.

grüße
Fabian

Ge0rgy · 13.10.2011

ich dachte irgendwas gelesen zu haben von einem architekturswitch namens amdfam15 oder so in der art.
Also nicht unter bulldozer, sondern unter amd familie 15...

nazgul99 · 13.10.2011

Lynxeye schrieb:
Inzwischen gibt es auch ein paar Linuxergebnisse:
zwar nicht überragend, aber wenigstens im Vergleich zum X6 1100T sehen die Ergebnisse im Multithreaded Benches gar nicht soo schlecht aus.

Im Schnitt 14% Leistungsgewinn - nicht soooo schlecht. Bei 44% höherem CPU-Preis (Geizhals: momentan 40%) - da würden mich z.B. vergleichbare Ergebnisse mit i7-2600k interessieren. Beim einzigen Single-Threaded Wert ist der Bully hier 1,4% langsamer als Thuban.Bei Unigine (ist doch auch single-Threaded?) hat BD immerhin sogar nen minimalen Vorsprung - nicht dass der für nen Gamer den Preisunterschied rechtfertigen würde

Ge0rgy · 13.10.2011

das sind aber auch nur generische optimierungen... ich bin gespannt was herauskommen würde wenn man mit BD-optimierung kompiliert

Dresdenboy · 13.10.2011

Fabian_HT4U schrieb:
Gibt es so eine Option schon für den aktuellen GCC? Ich habe nämlich extra danach gesucht und nur eine Option für den K10 gefunden. Sprich bei BD gabs kein -mtune.

grüße
Fabian

Die Option sollte nun -mtune=bdver1 sein. Wenn der Compiler auf dem FX läuft, sollte auch ein -mtune=native gehen.

Popey900 · 13.10.2011

Ge0rgy schrieb:
2. Einfach nur einfältig, wenn er sich von ein par % leistung abschrecken lässt, und so tut als wäre eine CPU langsam nur weil sie nicht alles in dern schatten stellt.

Sicher, natürlich ! Ich gib es auf

8)
Ok, der Bulli ist Super, nur paar % schlechter wie die alten, und viele % schlechter wie die Konkurrenz. Aber Super. *noahnung*

Sorry, mein Fehler.

Also Fazit: Teurer,Langsamer,verbraucht mehr. Aber sonnst Super.

Herr Melin · 13.10.2011

Im Grunde müsste der Scheduler unter Windows 8 nicht grundlegend auf Core Parking ausgelegt sein, sondern noch intelligenter arbeiten:

1 Kern Volllast = 3 Module schlafen
2 Kerne Volllast = 2 Module schlafen
3 Kerne Volllast = 1 Modul schläft
4 Kerne Volllast = kein Modul schläft
ab 5 Kerne Volllast =

Wie es jetzt geplant ist, läuft es auf komplett auf Core Parking hinaus um immer den maximalen Turbo vorzuhalten.

Beispiel 2 Kernbetrieb:

Dort gehen 3 Module schlafen, der Turbo steigt auf 4,2 GHz. Schön dass der Turbo greifen kann, aber das würde er auch bei 2 belasteten Modulen. Also ist das ineffektiv, siehe 2CU/4C vs. 4CU/4C. Denn dort bringt es schon eine Einbuße von ca. 20 % ggü. dem 2-Modulbetrieb.
So geht das bis zu 4 Kernen hoch. Erst dann lohnt sich das Abschalten ganzer Module um den Turbo auf Max zu treiben. So wird eine Menge Leistung verschenkt.

Eine freeware wie "Core Affinity Resident" könnte da Abhilfe schaffen:
http://www.drwindows.de/windows-7-t...ndungszuordnung-fuer-mehrkernprozessoren.html

deadohiosky · 13.10.2011

Popey dein Getrolle nervt. Es wäre schön, wenn du anstattdessen etwas Substantielles zum Thema beitragen könntest. Im Moment verdrehst du mit deinen Kommentaren jedem einzelnen Angesprochenen das Wort im Munde um dann Denjenigen auf arrogante Weise ins Lächerliche zu ziehen.

Was für ein Ziel verfolgst du damit? Dich selbst zu erhöhen?

Niemand lobt hier Desktop-Bulldozer in den Klee, aber du wirst natürlich auch niemanden finden der ihn komplett in die Tonne werfen würde.

Falls du es noch nicht bemerkt hast (und das ist natürlich nur eine theoretische Annahme, deinem Avatar nach zu urteilen) dies ist ein AMD-affines Forum.

Opteron · 13.10.2011

Lynxeye schrieb:
Inzwischen gibt es auch ein paar Linuxergebnisse:
zwar nicht überragend, aber wenigstens im Vergleich zum X6 1100T sehen die Ergebnisse im Multithreaded Benches gar nicht soo schlecht aus.

HMmm, wenn mans mal prozentual mit x264 und Blender mit den Werten bei ht4u Werten vergleicht, sieht man, dass Linux 3-5% schneller ist.

Sicher nur ein grober Vergleich, aber wär mal interessant der Sache auf den Zahn zu fühlen.

Dresdenboy schrieb:
Die Option sollte nun -mtune=bdver1 sein. Wenn der Compiler auf dem FX läuft, sollte auch ein -mtune=native gehen.

Im allerneuesten 4.7er nur noch bdver:

Please use newly introduced m_BDVER in tune flags instead of "m_BDVER1
| m_BDVER2".

http://old.nabble.com/AMD-bdver2-enablement.-tp32040151p32043587.html

undone · 13.10.2011

Opteron schrieb:
Im allerneuesten 4.7er nur noch bdver:

Hello,

I don't know if it has been posted before.

These patches add support for upcoming bdver2 AMD processors:
BMI (Bit Manipulation Instructions)
TBM (Trailing Bit Manipulation)
FMA3 (three operand FMA) instructions

patchwork.ozlabs.org/patch/67992/

Looks like bdver2 represents Piledriver.

deadohiosky · 13.10.2011

@undone

Yup, it's been known for a while and a recent leaked, but unconfirmed, slide actually shows just that:

Opteron · 13.10.2011

undone schrieb:
Hello,

I don't know if it has been posted before.

patchwork.ozlabs.org/patch/67992/

Looks like bdver2 represents Piledriver.

Hi, yes that is old, Dresdenboy found it last year, he posted it here:
http://citavia.blog.de/2010/10/21/signs-of-bulldozer-2-and-llano-9726240/

and I added it in our Bdver2 community thread:
http://www.planet3dnow.de/vbulletin/showthread.php?t=387886

Bdver2 is definitly Piledriver, there was a comment which stated that it is Trinity's core architecture:

+@code{@value{AS}} supports AMD's Trailing Bit Manipulation (TBM)
+instruction set, available on AMD's BDVER2 processors (Trinity and
+Viperfish).

http://www.planet3dnow.de/vbulletin/showthread.php?p=4372056#post4372056
I guess Viperfish is Vishera's aka Zambezi 2.0 die, sounds similar

But this is the wrong thread to discuss that. This is just the Bdver1 thread.

deadohiosky · 13.10.2011

Noch etwas zur "Schadensbegrenzung":

http://semiaccurate.com/forums/showthread.php?p=138735#post138735

der gute wuttz, unter anderem bekannt aus dem amdzone-Forum hat ein paar Applikationen zusammengestellt in denen Bulldozer "performt"

SolidWorks

Maya

(Quelle:http://www.techspot.com/review/452-amd-bulldozer-fx-cpus/page7.html)

Keine Ahnung was da für Befehlssätze greifen und warum der (simulierte) 8120 besser performen soll als der 8150 (der simulierte 4170 klar durch die höhere Taktung und schlechte Multi-Core Unterstützung) aber immerhin zeigen die anderen Ergebnisse, dass Bulldozer in den Bereichen Multimedia, Encoding, Rendering und Archivierung einige Vorteile bringt. Besser als ein Phenom II X6 und meist besser als ein i7-2600K.

LinuS · 14.10.2011

gruffi schrieb:
Nope. Ich habe nichts ausgedrückt, sondern eine Frage gestellt.

Ja du hast eine Frage gestellt. Da muss ich dann doch dich wieder zitieren:

gruffi schrieb:
Während ein i7-2600 von 800x600 auf 1680x1050 satte 58% an Performance verliert, sind es beim FX-8150 gerade mal 37%. Wenn die CPU entscheidend sein soll, sollte die Skalierung dann nicht ähnlich sein?

Wenn die CPUs entscheident sind, zeigen diese genau das Verhalten wie du in dem Beispiel dargelegt hast. Deine Schlussfolgerung ist also einfach falsch und damit die Frage nonsens. Siehe auch meinen vorigen Beitrag für weitergehende Erklärungen.
Das mit der gleichen Skalierung hast im übrigen du persönlich ins Spiel gebracht.

deadohiosky schrieb:
Noch etwas zur "Schadensbegrenzung":
.
.
.

Joa sieht ganz nett in SW aus. Wenn Spec hier eine neuere Version von Solid benutzen würde, viell. säh es dort dann sogar noch besser für BD aus

deadohiosky · 14.10.2011

Auch AMD übt sich in Schadensbegrenzung, klappt aber meines Erachtens eher schlecht als recht

:

http://blogs.amd.com/play/2011/10/13/our-take-on-amd-fx/

Adam Kozak kommt mit einem GPU-Limit Szenario(HD 6970 ab 1650x1080) mit Frameraten die mehr als witzlos sind. Tut mir leid, aber wer hat dem den ins Hirn geschissen? *noahnung*

21.4 fps? Wer spielt denn mit Frameraten (also ich denke mal es sind Frameraten, denn angeben ist es nicht

) die vom menschlichen Auge nicht als zusammenhängende Bildabfolge "erkannt" wird? *lol*

Also wirklich, ein bißchen mehr anstrengen könnten sie sich schon. Ich fühle mich ehrlich gesagt ein wenig in meiner Intelligenz beleidigt.

ONH · 14.10.2011

Also wirklich, ein bißchen mehr anstrengen könnten sie sich schon. Ich fühle mich ehrlich gesagt ein wenig in meiner Intelligenz beleidigt.

Vieleicht sollte mal AMD sein Testportfofolio auf produktive Anwendungen ausdehnen da ist wesentlich mehr Geld zu machen als bei den Gamern selbst wenn da Teilweise Server Prozessoren eingesetzt werden.

OBrian · 14.10.2011

Mal eine ganz wilde Überlegung: Hätte AMD statt 4 BD-Modulen auch einfach nur drei verbauen können und an Stelle des ersten einen anderen fetten Single-Core, der auf alten Code gut reagiert? Also sagen wir mal einen aufgebohrten K10.5 mit noch ein paar Tweaks für bessere Thread-IPC?

Mit so einem asymmetrischen 7-Kerner (Cell läßt grüßen) hätte man gute Spieleperformance gehabt, denn in Spielen läuft ja meist nur der erste Core unter Vollast, der Rest bleibt halb leer. Trifft sicher auch auf genug andere Programme zu. Und die Software, für die BD gebaut ist, wäre darauf fast genauso gut gelaufen, dafür blieben ja noch 3 BD-Module.

Natürlich muß dann immer entschieden werden, welcher Core für welche Aufgabe am besten geeignet ist. Aber dieses Problem muß AMD sowieso angehen, wenn sie Fusion richtig nutzen wollen, sprich die GPU nicht nur über Krücken wie OpenCL nutzen wollen, sondern nativ einbinden. Und ob man dann eine inhomogene APU aus zwei oder drei verschiedenen Kernarten hat, dürfte dann konzeptionell kein großer Unterschied sein.

Menace · 14.10.2011

@OBrian: Wäre es dann nicht sinnvoller, APU konsequent weiterzuentwickeln? Könnte es nicht sein, dass der BD nur zusammen mit einer GPU Sinn für den Desktopbereich macht, oder ist dafür die GPU wieder zu speziell?

CADharsis · 14.10.2011

endlich ein lichtblick! würde mich mal interessieren wie der Bulli in den anderen CAD (z.B. Inventor) und 3D modeling Programmen, zusammen mit einer professionellen Grafikkarte, abschneidet.
Wenn ich einen in die Finger bekomme mache ich mal ein par tests mit meiner V8800. 8)

Wäre dann bestimmt eine gute alternative für freiberufler in einer lowbudget Workstation.

Bulldozer auf Weltreise (BD rollt an Part II)

Grand Admiral Special

Cadet

Redaktion☆☆☆☆☆☆

Cadet

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Cadet

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Lt. Commander

Captain Special

Gesperrt

Redaktion☆☆☆☆☆☆

Cadet

Gesperrt

Redaktion☆☆☆☆☆☆

Gesperrt

Vice Admiral Special

Gesperrt

Grand Admiral Special

Moderation MBDB, ,

Vice Admiral Special

Cadet

Ähnliche Themen

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆