Zambezi - Fehler, Bugs, mangelnde Performance - Woran liegt es?

Lynxeye · 25.11.2011

Stryki schrieb:
@Lynxeye Warum ein 8 Core für den Desktop? da reichen auch 4 bis maximal 6 und ob man ULK dann nicht doch hätte nutzen können? Es ging ja um eine Desktopalternative wer 8+ Cores da braucht kann ein Workstationboard kaufen.
Mir ging es um ein moderates Phenom2 Upgrade was simpel sein sollte. Mit dem 1MB L2 könnte man vermutlich sogar den L3 noch auf 4MB reduzieren.
Da kommt sicher weniger Fläche zusammen als BD hat.

Der 32nm Prozess läuft noch nicht so wie er soll: ULK fehlt definitiv, egal welcher Prozessor nun damit gefertigt wird. Das heißt ein 32nm 4 Core hat höchstens einen moderaten Verbrauchsvorteil. Beim 6 Core hätte ich dann gar keinen Grund den neuen zu nehmen, da der 45nm bei Verbrauch und Leistung vergleichbar wäre. Wo wäre der Gewinn für mich als Kunden? Und für AMD, bei denen für wenig Mehrwert die Ressourcen gebunden werden?

Ich jedenfalls freue mich, dass ich einen Prozessor mit einem modernen Instruktionssatz und viel Durchsatz für schmales Geld kaufen kann und nicht zu den Workstationalternativen greifen muss.

ONH · 25.11.2011

http://phoronix.com/forums/showthread.php?65247-AMD-FX-8150-With-The-Open64-5.0-Compiler

AMD-FX-8150-With-The-Open64-5.0-Compiler

Phoronix hat den neuen Compiler getestet in den meisten Tests bringts mehr oder weniger fast nichts nur beim einten Test gabs ein Plus von 30%.

Rangoon · 25.11.2011

Hi,

nachdem ich selbst seit knapp 3 Wohen einen FX-6100 mein Eigen nenne hier einmal meine Einschätzung:

Zunächst ist anzumerken, daß die IPC pro Core - sofern man das beim BD überhaupt so sagen kann - gelinde ausgedrückt äußert mau ist. Das gilt insbesondere für BOINC. Da gibt es nichts zu beschönigen. Das BD-Konzept lebt ja aber in erster Linie von vielen Threads; da holt BD gegenüber der K10.5-Architektur schon ordentlich auf.

Was den Fertigungsprozess angeht: Diesbezüglich bin ich gewiß kein Experte. Dennoch ist mir beim OC/UV einiges aufgefallen. Der BD verhält sich beim OC sowohl via. Takt- als auch Spannungserhöhung gegenüber einem K10.5 gänzlich anders. Die Leistungsaufnahme steigt hier meinen Messungen nach stärker an, als es bei vergleichsweisen Einstellungen bei einem Phenom II X6 der Fall ist. Umgekehrt jedoch, also beim UV sind ebenso erstaunliche Ergebnisse möglich. Bei 3GHz läuft der FX-6100 mit schlappen 1V, bei 2.8GHz sogar mit weniger als 0.9V. Die Leistungsaufnahme sinkt bei diesen Taktfrequenzen ebenfalls nocheinmal drastisch. Bei 3.3GHz läuft der FX-6100 übrigens mit knapp 1.08V. Mit diesen Settings arbeitet der BD sehr wohl äußerst effizient.

Die Frage ist jetzt: Warum steigt die Leistungsaufnahme beim BD bei höheren Taktfrequenzen und VCore schneller an als beim K10.5? Es gibt ja nur zwei Möglichkeiten:

1. Entweder ist der Fertigungsprozess beim GF tatsächlich noch nicht ausgereift (was ich glaube) oder

2. Das BD-Konzept benötigt bei höheren Taktfrequenzen/VCore grundsätzlich mehr Energie - was eher schlecht wäre.

Nur die Zeit wird es zeigen. Derzeit teste ich übrigens gerade den FX-4100 meines Kumpels auf meinem MB. Der braucht bei gleicher Taktfrequenz schon mal wesentlich mehr V-Core. Hier scheint AMD also schon zu selektieren. Und die FX-8xxx laufen ja offensichtlich nocheinmal nen ganzen Tacken besser als die FX-6xxx. D. h. sie brauchen bei gleicher Taktung im Schnitt nochmals weniger Spannung. Auch wenn der FX derzeit noch nicht wirklich so der Bringer ist bin ich recht zuversichtlich gestimmt was die weitere Entwicklung angeht. OK, ein K10.5 8 Kerner in 32nm wäre derzeit vielleicht besser gewesen. Langfristig gesehen dürfte BD aber über wesentlich mehr Entwicklungspotential verfügen. Ich denke, daß AMD es genau so sieht.

Lg und ein schönes WE,

Rangoon

bbott · 26.11.2011

@ ragoon

ULK fehlt. Beim 45nm Prozess war es dadurch möglich, aus einem X4 einen X6 bei identischer TDP zu realisieren!

Damit wären etwa 40% weniger Leistungsaufnahme drin, scheinbar hatte man aber bei 32nm noch soviel Probleme damit das man darauf (vorerst?) verzichtet hat.

Wenn Piledriver mit ULK kommen würde wäre man dann SB in sachen TDP dicht auf den Fersen...

TNT · 26.11.2011

Rangoon schrieb:
....

Rangoon

Danke fuer Deine Einschaetzung.

Markus Everson · 26.11.2011

fst schrieb:
Stimmt, aber reduziert falsches Wissen.

Das falsche Wissen das AMD mit dem Bulldozer den ersten CMT Prozessor gebaut hat ist ebenso korrigiert wie das falsche Wissen das SUN mit dem T1 den ersten CMT Prozessor gebaut hat.

Mission erfüllt.
.
EDIT :
.

Stryki schrieb:
@ fst mag sein das der T2 kein CMT hat, ich hatte es mal gelesen und da Markus das auch erwähnt hatte war ich mir recht sicher.

http://blogs.oracle.com/allanp/entry/cmt_comes_of_age
.
EDIT :
.

bbott schrieb:
@ ragoon

ULK fehlt. Beim 45nm Prozess war es dadurch möglich, aus einem X4 einen X6 bei identischer TDP zu realisieren!

Zu welchen Kosten? Mit welcher Yield? Mit welchem Designaufwand? Mit welchen Tradeoffs?

Ihr hier seid die einzigen die immer wieder und wieder betonen das ULK fehlt. In der Fachpresse liest man dazu nichts.

FredD · 27.11.2011

Stryki schrieb:
@ fst mag sein das der T2 kein CMT hat, ich hatte es mal gelesen und da Markus das auch erwähnt hatte war ich mir recht sicher.

Block-Schema Ultrasparc T2 Seite 7ff. Die Ähnlichkeit mit dem groben Schema der Bulldozer-Architektur springt regelrecht ins Auge.

Oi!Olli · 28.11.2011

Lynxeye schrieb:
Ich jedenfalls freue mich, dass ich einen Prozessor mit einem modernen Instruktionssatz und viel Durchsatz für schmales Geld kaufen kann und nicht zu den Workstationalternativen greifen muss.

Wieso? Der Xeon ist doch teilweise auch recht billig. Und oft eine gute Alternative zum i5 und i7.

deadohiosky · 29.11.2011

HardOCP hatte ja vor einer Weile aufgerufen, Frage an "AMD" zu stellen.

Nun, die Fragen wurden gesammelt, 10 davon haben überlebt.

http://www.hardocp.com/article/2011/11/29/hardocp_readers_ask_amd_bulldozer_questions

Nachdem ich mir das Ganze durchgelesen habe und über die teilweise "bescheidenen" Fragen und noch umso bescheideneren Antworten gestöhnt und den Kopf geschüttelt habe, gab es doch noch einen kleinen Lichtblick:

6. It has been stated that Bulldozer will see improvements in performance with the Windows 8 scheduler. Would you elaborate?

Gabe Gravning, Senior Product Marketing Manager, AMD - We worked with Microsoft to improve the way threads are scheduled with the "Bulldozer" architecture in Windows 8®. In Windows 7, workloads are simply executed sequentially across the cores. The Windows 8 scheduler is optimized for the "Bulldozer" architecture and will distribute the workload across each core pair first and then each core resulting in better threaded performance.

For example, in testing by AMD with the AMD FX-8150, we are seeing up to 10% uplift on a number of games with the Windows 8 Developer Preview compared to Windows® 7. Of course, results do vary.

We are also working with Microsoft on a scheduler update for Windows 7 that will be available soon.

Wie bald "soon" ist, das ist natürlich die Frage, aber immerhin haben sich die Gerüchte doch bestätigt, es soll laut AMD/ Gabe Grayning einen Scheduler Patch/Update geben. Das wären sehr erfreuliche Neuigkeiten und lassen hoffen, dass wenigstens ein paar %-Pünktchen herausgearbeitet werden können, oder wenigstens das Core Parking/Turbo besser funktioniert.

Gast30082015 · 29.11.2011

Die Reaktionen im dazugehörigen Thread sagen auch schon alles...

Classic PR damage control bullshit.

ONH · 29.11.2011

For example, in testing by AMD with the AMD FX-8150, we are seeing up to 10% uplift on a number of games with the Windows 8 Developer Preview compared to Windows® 7. Of course, results do vary.

We are also working with Microsoft on a scheduler update for Windows 7 that will be available soon.

Dann hoffen wir mal die Passen auch zum BD1 Nachfolger und kommen vor diesem Raus nicht das dieser auch noch mit dem Alten getestet werden.

TNT · 29.11.2011

yasu schrieb:
Die Reaktionen im dazugehörigen Thread sagen auch schon alles...

In der Tat koennte man sich dieser Schlussfolgerung anschliessen...

gruffi · 30.11.2011

Ich frage mich, was ihr habt. Die Fragen sind doch auf den Punkt. Ich finde sie jedenfalls fast alle interessant. Schön, dass sich die Verantwortlichen mal dazu äussern. Dass Bulldozer für Multithreading optimiert wurde und keine singlethreaded IPC Rekorde aufstellt, ist nun keine Neuigkeit. Es gibt aber auch noch andere Infos.

The latest architectural advancements from both AMD and our competitors have incorporated advancements from deeper pipelines. The pipeline within our latest "Bulldozer" microarchitecture is approximately 25 percent deeper than that of the previous generation architectures.

K8/K10 hatte eine Pipeline mit 12 Stufen (Integer). 25% mehr wären also 15 Stufen. Also nicht so viel mehr und das, was schon seit langer Zeit spekuliert wurde. Damit sollte man endlich mal die Vergleiche mit Netburst ad acta legen können. Der war diesbezüglich nochmal ein ganz anderes Kaliber.

Mike Butler, Senior Fellow Design Engineer, AMD - Clearly, IPC is an important factor in processor performance, and IPC has decreased slightly in this first instantiation of "Bulldozer." That said there are multiple performance factors – and trade-offs – that went into the design of the forward-looking "Bulldozer" architecture.

Das klingt fast so, als würde die kommende Bulldozer Generation wieder etwas mehr Fokus auf IPC legen und weniger auf Durchsatz.

Bobo_Oberon · 30.11.2011

gruffi schrieb:
... Mike Butler, Senior Fellow Design Engineer, AMD - Clearly, IPC is an important factor in processor performance, and IPC has decreased slightly in this first instantiation of "Bulldozer." That said there are multiple performance factors – and trade-offs – that went into the design of the forward-looking "Bulldozer" architecture. ...

Zum Vergrößern anklicken....

Das klingt fast so, als würde die kommende Bulldozer Generation wieder etwas mehr Fokus auf IPC legen und weniger auf Durchsatz.

Ich bewerte das so, dass Durchsatzstärke nach wie vor wichtig bleiben wird - aber in der zweiten Bulldozer-Generation eben doch auch die IPC steigen soll.

Da ist AMD etwas "hinten dran" im Trend. Oracles/Suns UltraSparc T4 hat eben dieses schon auf dem Markt gezeigt. Die Multicores blieben bei 8 Kernen - aber durch in OoO-Design, hohem Takt und Tuning an allen Ecken und Kanten ist statt der geplanten Leistungserhöhung um den Faktor 3 sogar die fünfache Leistung dabei herausgekommen.

Zugegeben, das wird mit dem Bulldozer nicht passieren, weil hier kein Wechsel von InOrder "Wimpi Cores" hin zu ausgefuchsten (mit längerer Pipeline) fetteren Out of Order Kernen stattfindet - aber ich sehe dennoch "Musik" und Luft im Bulldozer.

Nichts desto trotz werde ich die Tage einen Phenom X6 1090 kaufen, weil das Bulldozerflaggschiff mich derzeit kaum überzeugt. In 3 bis 9 Monaten kann ich ja dann gegen den Pillendreher austauschen und im Altsystem meinen X6 1055T dann gegen den 1090T ausmisten.

MFG Bobo(2011)

FredD · 30.11.2011

Bobo_Oberon schrieb:
Da ist AMD etwas "hinten dran" im Trend. Oracles/Suns UltraSparc T4 hat eben dieses schon auf dem Markt gezeigt. Die Multicores blieben bei 8 Kernen - aber durch in OoO-Design, hohem Takt und Tuning an allen Ecken und Kanten ist statt der geplanten Leistungserhöhung um den Faktor 3 sogar die fünfache Leistung dabei herausgekommen.
MFG Bobo(2011)

Nettes Zitat hierzu:

The SPARC T4 processor design recognizes that memory latency is truly the bottleneck to improving
performance. By redesigning the cores within each processor, designing a new floating-point pipeline,
and by further increasing network bandwidth, this processor is able to provide approximately 5X the
single-threaded throughput of the SPARC T3 processor.

Aus Sparc T4 Arch

Speicher-Latenz, da war doch noch was. Ach ja, dieses für Server-Loads opimierte Write-Through Cache-Design des Zambezi. Warum wurde darauf in der Fragerunde nicht eingegangen?

ONE_FOR_ALL · 30.11.2011

Knie nieder und beichte Ungläubiger. *lol*

(nicht böse gemeint)

Opteron · 02.01.2012

Am Alias Problem liegts schon mal nicht, aus der aktuellen ct:

Bei Windows kann sich der Programmierer beim Erstellen des Programms aussuchen, ob seine Applikation mit ASLR gestartet werden soll oder nicht. Das ist zwar die Voreinstellung in neueren Visual-Studios, aber dennoch verzichtet ein Großteil verbreiteter Software immer noch darauf. Windows verwürfelt bei ASLR zudem nicht alle Bits, sondern lässt die unteren 16 unangetastet, was obiges Alias-Problem des Bulldozer-Caches netterweise umschifft; ein Hotfix ist für Windows also nicht nötig.

http://www.heise.de/ct/artikel/Prozessorgefluester-1398173.html

sciing · 03.01.2012

bbott schrieb:
@ ragoon

ULK fehlt.

Woher wisst Ihr das bloss?
Ich weiss außerdem sind es nur 3 Metalllagen und high k ist auch nicht drin.
.
EDIT :
.

Lynxeye schrieb:
Der 32nm Prozess läuft noch nicht so wie er soll: ULK fehlt definitiv

Respekt wie hast Du das rausbekommen, nicht mal Experten mit teuersten Analysegeräten könnte so einfach low k (kohlenstoffhaltiges SiO2) von einem ULK (nanoporöses kohlenstoffhaltiges SiO2) unterscheiden. Wie macht Ihr das nur?

Duplex · 03.01.2012

Selbst wenn ULK & HighK fehlen würde, wie hoch wollt ihr das Design takten um die fehlenden Instruction per Cycle & halb soviel Ausführseinheiten im vergleich zu Intels 4 Fach Superskalar Design ausgleichen zu müssen? Kann AMD mit 5Ghz Takt in 4 Threads etwas reißen, NEIN, kann AMD mit 4,5Ghz ein i7-2600k paroli bieten, nicht wirklich. Sandy Bridge hat pro Core über 50% mehr IPC als Bulldozer.

hot · 03.01.2012

Wenn 4,5 bis 5,5GHz drin sind (und das BD-Design ist sehr taktfreundlich, wie man bei den Übertaktern sieht) wäre er mehr als konkurrenzfähig. Da die eigentlichen Recheneinheiten ja weniger das Problem sind sondern eher Frontend und Cache-Latenz würde grade das durch mehr Takt ja vebessert (bzw. verkürzt). Der Takt ist ja nicht das Problem sondern der horrende Verbrauch. Sollte neben ULK auchnoch High-K fehlen braucht einen garnichts mehr zu wundern... dann ist der Fertigungsprozess auf dem Niveau vom 45nm-Prozess, mit dem Deneb hergestellt wurde, mit fast keinen Verbesserung außer der Verkleinerung - wir wissen, dass eine reine Verkleinerung nicht so viel bringt. Siehe z.B. AMDs 65nm-Prozess.

foenfrisur · 03.01.2012

vor allem ist der verbrauch ein "traum", wenn er bei 4,5-5ghz taktet

da is nix konkurrenzfähig.

also theoretisch ist es zumindest egal, wie eine cpu taktet, wenn abwärme/verbrauch und performance hinterher stimmen würden

mfg

Woerns · 03.01.2012

hot schrieb:
Der Takt ist ja nicht das Problem sondern der horrende Verbrauch.

Leider skaliert die dynamische Leakage mit dem Takt. Will sagen, selbst wenn das Design höher takten könnte, würde der Verbrauch ja auch deutlich steigen. MfG

hot · 03.01.2012

foenfrisur schrieb:
vor allem ist der verbrauch ein "traum", wenn er bei 4,5-5ghz taktet
da is nix konkurrenzfähig.

also theoretisch ist es zumindest egal, wie eine cpu taktet, wenn abwärme/verbrauch und performance hinterher stimmen würden

mfg

Wenn High-K voll drin ist und ULK auch, braucht vllt. noch 1 bis 1,05V und das noch minus Leckströme, die bei P3DNow! ja nachgemessen wurden, dann läuft der Prozess so wie bei den Intels, mit ULK sogar besser - dann ist die Verbrauch kein Problem mehr und Takt ist wie gesagt mit BD eh kein Problem.

Woerns schrieb:
Leider skaliert die dynamische Leakage mit dem Takt. Will sagen, selbst wenn das Design höher takten könnte, würde der Verbrauch ja auch deutlich steigen. MfG

genau darum gehts ja. Ohne High-K und ULK ist das eben genau das Problem. Man schafft trotzdem mehr als 3,5GHz. Mal dir mal aus, wieviel ist mit niedriger Spannung und durch die Techniken mit deutlich verminderter Leakage wäre...

Crashtest · 03.01.2012

Wenn ULK & HighK fehlen sollte - wären mit Verwendung Einsparungen im Bereich von 30-50% des Verbrauchs und damit auch Abwärme möglich sodass der Bulldozer gegenüber Sandy gleichziehen kann (Leistung/Watt) bzw. in einigen Bereich davon ziehen (insb. FMA & Co)

Ge0rgy · 03.01.2012

@Duplex
Woher nimmst du die Aussage dass sandy 50% mehr ipc hätte? - haben wir nicht bis zur rektalen errektion durchdiskutiert ass es "die IPC" nicht gibt, sondern das mit dem Code zu tun hat?
Setz Sandy mal FP-Code mit FMA vor, dann schauen wir wie hoch die IPC ist...
Dass Sandybridge 4 fach Superskalar wäre, ist mir auch was neues... AFAIK hat sie wie Nehalem 4 Dekoder, kann aber im Backend trotzdem nur 3 Befehle parallel abarbeiten.
Nebenbei ist BD wenn du es absolut betrachtest 4-fach OoO bei INT-Code und 2-Fach OoO bei FP-Code. Auf einen Thread sind es immernoch 2/2 und damit effektiv auch 4.
Dazu sind die AGUs gesondert zu betrachten... uups... plötzlich merken wir dass sich das garnicht toll vergleichen lässt.
Wie wohl ein Sandybridge mit dem L1-Cachedesign von BD auf dem Desktop performen würde? *noahnung*

Könnten wir an dieser Stelle also bitte das Bashing und die Polemik seinlassen und zu seriösen Spekulationen über Ursachen zurückkehren? - Danke.

Dass ULK höchstwahrscheinlich fehlt, dafür hatten wir schon mehrfach Hinweise, unter anderem auch die Berichte über brüchtige Dice in den Anfängen der 32nm-Produktion bei GF.

Zambezi - Fehler, Bugs, mangelnde Performance - Woran liegt es?

Admiral Special

Grand Admiral Special

Commodore Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Gesperrt

Grand Admiral Special

Gesperrt

Gast30082015

Guest

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Gesperrt

Lieutnant

Redaktion☆☆☆☆☆☆

Commodore Special

Admiral Special

Admiral Special

Grand Admiral Special

Grand Admiral Special

Admiral Special

Redaktion☆☆☆☆☆☆

Grand Admiral Special

Ähnliche Themen

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆