Zambezi - Fehler, Bugs, mangelnde Performance - Woran liegt es?

@Duplex
Woher nimmst du die Aussage dass sandy 50% mehr ipc hätte? - haben wir nicht bis zur rektalen errektion durchdiskutiert ass es "die IPC" nicht gibt, sondern das mit dem Code zu tun hat?

Das ist wie beim Energieverbrauch, die kleinen blauen Schlümpfe sehen nur das als wichtig an was gerade in ihrem Dorf zu finden ist.

Dass ULK höchstwahrscheinlich fehlt, dafür hatten wir schon mehrfach Hinweise, unter anderem auch die Berichte über brüchtige Dice in den Anfängen der 32nm-Produktion bei GF.

Tschuldischung, aber die Hinweise und Berichte sind in meinen Augen von einer Qualität das Erich sie ohne mit der Wimper zu zucken auch als Beweis für die Besiedlung der Erde durch Außerirdische deuten würde. Nix belastbares halt, sondern nur Gerüchte und Indizien die von Fanboy-Mund zu Fanboy-Ohr wandern und in jeder Iteration ein bisschen gewisser die Lösung aller Probleme beschreiben.
 
Hier bei gleichem Takt


Selbst wenn Bulldozer 1Ghz mehr Takt hätte, das 4 Fach Superskalar Design von Intel wäre dann immer noch schneller.
Ich warte dann noch 2 Jahre auf Steamroller mit K10 IPC :]
 
Zuletzt bearbeitet:
Ganz super tolle Auswahl .. und so repräsentativ...
 
Lol - LAME Codec welcher ja bekanntlich Inteloptimiert bzw AMDsuboptimiert ist ;)

Teste doch mal was den GCC oder PathScale gesehen hat - Anstelle des Intel C-Compiler und du wirst sehen, dass der Bulldozer in einigen (eher vielen) Bereichen die Sandybridge in den Boden stampft bzw wegbulldozered.

Kein Wunder dass Bulldozer so erfolgreich sich in die Top500 einquartiert hat - da wird ja auch GCC, PathScale und Co verwendet ;D
 
Leider skaliert die dynamische Leakage mit dem Takt. Will sagen, selbst wenn das Design höher takten könnte, würde der Verbrauch ja auch deutlich steigen. MfG

Soweit ich mich erinnere, war die mit kleinerer Strukturbreite immer höher werdende statische Leakage gerade ein Argument FÜR hohen Takt (hier im Forum), da eben theoretisch weniger Transistoren vor sich hin leaken (praktisch siehts natürlich anders aus, da man ja ca. gleich viele Transistoren wie SB hat (dieser noch mit GPU an Bord), obwohl dieser weniger Takt für die selbe Leistung benötigt).
Oder habe ich das falsch in Erinnerung?
 
Aua, Duplex aua. Mir sind gerade zwei Neuronen im Gehirn geplatzt.

itunes und LAME (nix gegen LAME, nutze ich jeden zweiten Tag... ja ich kaufe CD's) sind echt die Paradebeispiele, neben SuperPi natürlich, von welchen man Singlethread-Leistung nun überhaupt nicht ableiten kann. itunes ist so schlecht programmiert, besonders bzw. gerade für Windows, dass man es als einfach als einwandfreien Bentmark schimpfen darf (kann itunes for Windows überhaupt Multithreading?, aufm Mac gehts glaube ich, aber unter Windows dachte ich geht es nicht bzw. nur durch mehrere Instanzen?).
 
@Duplex
Und dabei wurden wieviele Kerne genutzt? (Ein Punkt der in praktisch jedem Test fehlt)
Hier sind wir wieder bei dem Problem die IPC der CPU von der der einzelnen Kerne zu unterscheiden.
 
Hier bei gleichem Takt


Selbst wenn Bulldozer 1Ghz mehr Takt hätte, das 4 Fach Superskalar Design von Intel wäre dann immer noch schneller.
Ich warte dann noch 2 Jahre auf Steamroller mit K10 IPC :]

:]
@alle, wenn ich das nächste mal den troll füttere, steinigt mich bitte, ich schreie auch freiwillig jehova...
Irgendwie hab ich den eindruck manche leute haben die mauern von jericho vor dem kopf...
Hab nur leider keien Trompete zur hand...
Da betet man zum 58. mal herunter dass IPC sehr subjektiv und codeabhängig ist und eben nicht allgemeingültig - und was bekomme ich als antwort? - zwei beispiele von zigtausend möglichen, die auch noch äußerst suboptimal sind und die werden als Beweis herangezogen? - Sind Lame und iTunes nun neuerdings die wissenschaftliche Referenz für Rechenleistung ??? *noahnung*
Ebenso wird immernoch behauptet Sandy wäre 4-fach Superskalar... :]
Irgendwie komm ich mir vor als führte ich eine Diskussion mit einem Tauben...
 
Hier bei gleichem Takt


Selbst wenn Bulldozer 1Ghz mehr Takt hätte, das 4 Fach Superskalar Design von Intel wäre dann immer noch schneller.
Ich warte dann noch 2 Jahre auf Steamroller mit K10 IPC :]

Das betrachte ich als Eingeständnis das SB KEINE 50% mehr IPC hat als BD, das ist nicht der Schnitt eher eine Ausnahme. Ich habe auch Benches gesehen wo der BD 50%schneller ist als SB, da muss ich zwar etwas mehr Aufwand betreiben müssen als du beim Rosinen picken, aber diese Rosien würde ich auch wieder finden. *versprochen* ;)
 
Das betrachte ich als Eingeständnis das SB KEINE 50% mehr IPC hat als BD, das ist nicht der Schnitt eher eine Ausnahme. Ich habe auch Benches gesehen wo der BD 50%schneller ist als SB, da muss ich zwar etwas mehr Aufwand betreiben müssen als du beim Rosinen picken, aber diese Rosien würde ich auch wieder finden. *versprochen* ;)

Klar gibts sowas!
doppelter last verbrauch *buck*

sry für ot ;D
 
Soweit ich mich erinnere, war die mit kleinerer Strukturbreite immer höher werdende statische Leakage gerade ein Argument FÜR hohen Takt (hier im Forum), da eben theoretisch weniger Transistoren vor sich hin leaken (praktisch siehts natürlich anders aus, da man ja ca. gleich viele Transistoren wie SB hat (dieser noch mit GPU an Bord), obwohl dieser weniger Takt für die selbe Leistung benötigt).
Oder habe ich das falsch in Erinnerung?

Das war eine These solange BD als Super Hochtakt Design angenommen wurde. Da die Pipeline sich unterhalb von SB befindet ist diese Annahme hinfällig.


Wäre schon wenn ein CPU-Guru mal die aktuellen Fakten von den (alten/neuen) Gerüchen aufarbeiten könnte damit (etwas) mehr Klarheit hier hineinkommt.

Ich gehe einfach stark davon aus das ULK fehlt, da
1. BD im Verglich zum Phenom X6 in Sachen Stromverbrauch nicht wirklich besser dar steht.
2. ULK etwa die Differenz ausmachen würde die aktuell zwischen SB und BD liegt. Der offizielle Herstellung Prozess von AMD und Intel z.Z. relativ "ähnlich" ist Fist/Last Gate außen vorgelassen (so ähnlich wie seit langem nicht mehr). Jeden falls sollten die Ergebnisse nicht so weit auseinander liegen als sie es tun, das fehlen von ULK dies erklären.

Getreu dem Motte die naheliegendste Erklärung ist häufig die beste!
 
Code:
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/57/#abschnitt_two_worlds_ii[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/51/#abschnitt_arma_2_operation_arrowhead[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/56/#abschnitt_resident_evil_5[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/50/#abschnitt_arcania__gothic_4[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/35/[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/41/#abschnitt_pcmark_vantage[/url]
 
Klar gibts sowas!
doppelter last verbrauch *buck*

sry für ot ;D

Ich glaube einige habe noch nicht verstanden das BD zwei Probleme hat:
1. Performance: Ist durchwachsen -> Server hui, Desktop eher Pfui
2. Stromverbrauch: Idle hui, Last pfui

WENN nun ULK fehlen sollte, kann aus dem Last pfui recht schnell ein hui werden!

Das wirklich Problem was ich sehe, ist das Desktop Performance Pfui. Da braucht es viel Zeit um Bug zu Fixen BDv2 (oder v3?), die Software etc. zu optimieren bis CMT fruchtet, Als AMD auf einmal statt von einem 4 Fach Superskalar Design von einem 2 Fach Superskalar Design sprach war mir klar das BD im Deskop mangels Single Thread Leistung ungeeignet ist. Einige CPU-Gurus meinten das 2 Fach Superskalar Design durch höheren Takt ausgeglichen wird bzw. nicht so tragisch wäre. Eigentlich hat sich keine wirklich geirrt ober aber recht behalten BD ist irgendwie alles und noch nichts für den Desktop zumindestens bis jetzt.

Aber wenn CMT so schlecht wäre würde Intel nicht schon ein CMT+ ankündigen und SMT auf das Abstellgleis befördern, auch bei Intel wird die Single Thread Leistung leiden. Vielleicht nicht ganz so stark wie bei BD, aber bis dahin dürfte AMD auch an CMT getune haben.
.
EDIT :
.

Code:
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/57/#abschnitt_two_worlds_ii[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/51/#abschnitt_arma_2_operation_arrowhead[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/56/#abschnitt_resident_evil_5[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/50/#abschnitt_arcania__gothic_4[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/35/[/url]
[url]http://www.computerbase.de/artikel/prozessoren/2011/test-amd-bulldozer/41/#abschnitt_pcmark_vantage[/url]

Spiele, Spiele, Spiele auch schon mal über den Tellerrand geschaut ;D
 
Es gibt doch bereits eine gute Übersicht zum Thema Same Frequency!FX-8150 PK X6/X4/i5
Richtig ist das die i7 Sandy´s höhere Leistung bieten, falsch ist dass ein FX-8150 langsam ist.

Gruß Lehmann
 
Schlussfolgerung: Je höher die Auflösung um so besser wird Bulldozer.
 
Schlussfolgerung: Je höher die Auflösung um so besser wird Bulldozer.

Naja, je höher die Auflösung desto mehr läuft der Bench im GPUlimit.

Edit: Oder ... desto weniger Fallen die schlechten Eigenschaften des BD ins Gewicht.
 
Zuletzt bearbeitet:
Naa das stimmt aber so nicht. Das ist immernoch genauso CPU-"lastig" nur wird die Leistung, die die CPU zuviel bringt, verdeckt. Durchsatz wird irgendwann wichtiger als IPC und da ist BD gut.
 
schade das das nie gemessen wird, also cpu-auslastung mit und ohne gpu-limit.
Geht wohl schlecht ;). Ist auch quatsch, da viele Grafikgeschichten ja auch über den Prozessor laufen. Man darf nicht vergessen, dass die GPU eigentlich nur ein Sklave ist, der die Daten vom Treiber zugewiesen bekommt, die sie zum Output an der DVI-Buchse bringen soll, davor und auch währenddessen passiert aber noch einiges im Treiber, und das läuft auf dem Prozessor (der Prozessor ist der Computer, der Grafikchip ist nur ein Zusatzgerät, wenn auch ein fettes)... das lässt sich also garnicht trennen. Erst wenn die Grafikkarte wirklich überlastet wird und die Daten, die sie erhält, nicht mehr schnell genug verarbeiten kann, kann man von GPU-Limit sprechen. Das passiert natürlich irgendwann so krass, dass die Unterschiede zwischen den CPUs irgendwann voll verdeckt werden. Aber da die Chips unterschiedlich arbeiten (AMD vs. NV und von Generation zu Generation) kann es da Unterschiede geben. Um das richtig zu messen müsste man also eine unendlich schnelle Grafikkarte haben, dann gibts repräsentative Ergebnisse ohne GPU-Limit ;).
Nur die Auflösung verringern empfinde ich jedenfalls nicht unbedingt als ein gangbarer Weg, weil Grafikkarten nicht mehr nur reine Pixelschleudern sind. Es gibt ja auch Daten die nicht von der Auflösung abhängig sind, wenn man hier einfach den Durchsatz pro Pixel erhöht kann das auch Einfluss auf den Treiber haben und das Ergebnis mMn verfälschen. Wenn Crysis2 auf 800x600 jetzt 30% schneller auf Sandy ist als auf BD ist er auch 30% schneller, aber eben nur bei 800x600. Das kann ein Indiz sein, allein beweisbar ist das nicht. Die Verhältnisse der benötigten Daten könnten sich verändern - in welchem Maß wissen allein die Treiberentwickler. Aber man kann da nichts ausschließen und deshalb finde ich 800x600-Benchmarks nicht unbedingt der Weisheit letzter Schluss. Was wirklich zählt ist ja auch eigentlich, wie sich ein Prozessor bei FullHD verhält (bei einer fetten Pixelschleuder meinetwegen mit AA und AF), denn nur das spielt man ja auch wirklich. Bei Spielen reicht ein "schnell genug" durchaus - ist ja schließlich eine Echtzeitanwendung. Der Ertrag nimmt also ab und man profitiert nicht mehr von mehr Leistung. Bei einigen Spielen ist hier Sandy durchaus signifikant schneller als BD, also ist Sandy auch als Spieleprozessor eher zu empfehlen - nur um klarzustellen, dass das nicht in Frage steht, sondern nur die Methode der Bewertung und die Gewichtung der Ergebnisse.
Das ist aber in Games nicht der Fall.
Sicher ist das grade in Games der Fall, da grade Games aus sehr großen Datenstreams bestehen, die gleichzeitig in Echtzeit verarbeitet werden müssen. Durchsatz ist bei Games also sehr wichtig. Allerdings bringt das "Echtzeit" noch das Problem mit, dass neben dem Durchsatz auch die Latenzen verdammt wichtig sind und da ist Bulldozer eben ziemlich bescheiden... Aber es reicht um ans GPU-Limit zu stoßen, so dramatisch ist es also nicht. Bitter wird es erst, wenn wenig SMP-Optimierung auf x87-Code trifft - wie z.B. bei Skyrim - x87-Code kann BD offensichtlich überhaupt nicht gut. Für Skyrim speziell gibts ja Skyboost3, das die ollen Skyrim-x87-Fuktionen durch SSE2-Fuktionen ersetzt und selbst auf dem K10 mal eben für 40% Leistungssteigerung sorgt (und witzigerweise auchnoch die Stabilität des Spiels erhöht...)...
Soviel zu Spielen, denn Skyrim ist mit Sicherheit kein Einzelfall. Es dürfte in den seltensten Fällen wirklich richtig optimiert werden. Für BD ist das ne Katastrophe.
Speziell im Fall von Skyrim würd ich gerne mal einen Benchmark BD vs. Thuban mit und ohne Skyboost3 sehen, das könnte überraschend sein... Wirklich weiterhelfen tut diese Erkenntnis aber nicht, da es unwahrscheinlich ist, dass die Spieleentwickler in Zukunft ihre Hausaufgaben besser machen werden. Solange das aber so ist, wird AMD immer das Nachsehen haben mit BD-artigen Prozessoren ganz speziell in Spielen. Ist halt keine universelle eigerlegende Wollmilchsau mehr wie K7/8, P3 oder Conroe+, das hat BD mit dem P4 durchaus gemein und das ist auch Teil des Problems. Mit Skyboost3 hat die Community ja immerhin ein Exempel statuiert und Bethesda ganz schön in Erklärungsnot gebracht - vielleicht ist das der Grundstein für eine Besserung. Auch AMDs selbst gewählte Benachteiligung könnte dazu betragen, dass Software irgendwann besser optimiert wird.
 
Zuletzt bearbeitet:
Geht wohl schlecht ;). Ist auch quatsch, da viele Grafikgeschichten ja auch über den Prozessor laufen. Man darf nicht vergessen, dass die GPU eigentlich nur ein Sklave ist, der die Daten vom Treiber zugewiesen bekommt, die sie zum Output an der DVI-Buchse bringen soll, davor und auch währenddessen passiert aber noch einiges im Treiber, und das läuft auf dem Prozessor (der Prozessor ist der Computer, der Grafikchip ist nur ein Zusatzgerät, wenn auch ein fettes)... das lässt sich also garnicht trennen. Erst wenn die Grafikkarte wirklich überlastet wird und die Daten, die sie erhält, nicht mehr schnell genug verarbeiten kann, kann man von GPU-Limit sprechen. Das passiert natürlich irgendwann so krass, dass die Unterschiede zwischen den CPUs irgendwann voll verdeckt werden. Aber da die Chips unterschiedlich arbeiten (AMD vs. NV und von Generation zu Generation) kann es da Unterschiede geben. Um das richtig zu messen müsste man also eine unendlich schnelle Grafikkarte haben, dann gibts repräsentative Ergebnisse ohne GPU-Limit ;).
Nur die Auflösung verringern empfinde ich jedenfalls nicht unbedingt als ein gangbarer Weg, weil Grafikkarten nicht mehr nur reine Pixelschleudern sind. Es gibt ja auch Daten die nicht von der Auflösung abhängig sind, wenn man hier einfach den Durchsatz pro Pixel erhöht kann das auch Einfluss auf den Treiber haben und das Ergebnis mMn verfälschen. Wenn Crysis2 auf 800x600 jetzt 30% schneller auf Sandy ist als auf BD ist er auch 30% schneller, aber eben nur bei 800x600. Das kann ein Indiz sein, allein beweisbar ist das nicht. Die Verhältnisse der benötigten Daten könnten sich verändern - in welchem Maß wissen allein die Treiberentwickler. Aber man kann da nichts ausschließen und deshalb finde ich 800x600-Benchmarks nicht unbedingt der Weisheit letzter Schluss. Was wirklich zählt ist ja auch eigentlich, wie sich ein Prozessor bei FullHD verhält (bei einer fetten Pixelschleuder meinetwegen mit AA und AF), denn nur das spielt man ja auch wirklich. Bei Spielen reicht ein "schnell genug" durchaus - ist ja schließlich eine Echtzeitanwendung. Der Ertrag nimmt also ab und man profitiert nicht mehr von mehr Leistung. Bei einigen Spielen ist hier Sandy durchaus signifikant schneller als BD, also ist Sandy auch als Spieleprozessor eher zu empfehlen - nur um klarzustellen, dass das nicht in Frage steht, sondern nur die Methode der Bewertung und die Gewichtung der Ergebnisse.
Aus dem Grund hab ich extra auf die Benches mit CF (2xHD7970) verwiesen, um ein GPU-Limit möglichst weit nach hinten zu schieben (erst ab 5MP Auflösung) zu können.
Man sieht das BD bei 2 HD7970 es schwer hat, diese auszunutzen, erst ab einer 5MP Auflösung kommt er in Reichweite.
 
Zurück
Oben Unten