Bulldozer auf Weltreise (BD rollt an Part II)

Status
Für weitere Antworten geschlossen.
@aylano:
Wenn du es schaffst, aus den Takten die issue width abzuleiten, solltest du ein Paper veröffentlichen ;)
Kein Problem :P, aber dafür bräuchte ich ein neues Paper.

Fakt ist: in weiten Grenzen kann ich die FO4-Tiefe der Pipeline wählen u. ggf. für bisher 1taktige Stufen auch mehr Takte einplanen. Dann käme auch schonmal ein 6-wide 6 GHz Design heraus. Eine mir bekannte Veröffentlichung hat das schonmal untersucht.
Gibts da eine Übersetzung für Architektur-Noobs?
Die fettmarkierten Stellen sind die Bereiche wo ich ausgestiegen bin.

P4 hatte in seinene double pumped ALUs etwa. 8 FO4 (Bulldozer: 17 FO4). Was ist jetzt ein Hochtaktdesign genau?
Ich habe leider vergessen, was F04 bedeutet.

Dann wäre es interessant zu wissen, ob 8 F04 sich genauso verhält wie 90nm und 32nm oder völlig unterschiedlich.

Aber das interessante an den 8,4 Ghz @ 32nm-Bulldozer ist ja, dass die 32nm-Llano-CPUs sich so extrem schlecht (gegenüber 45nm) übertakten lassen.
Durch die Möglichkeit, dass die Llano-32nm-CPUs viel viel weniger auf Takt & Strom als die Bulldozer-32nm-CPU optimiert wurde, lässt sich Bulldozer durch eine neue Varibale sich jetzt noch schwieriger einschätzen.

Die VID sollte der spezifizierten entsprechen (d.h. alle Modelle werden diese haben).
Da die Turbo-P-States (mit "b") nicht aktiv waren, ist der P0-State hier der normale Basistakt-P-State. Die 6.2 GHz stimmen bei den OC-Versuchen nicht, da der Referenztakt erhöht wurde. Ebenso wie die Spannung. Aber die niedrigeren P-States sind vermutlich unverändert und sollten den sparsameren P-States, die dem FX-8150P zur Verfügung stehen, entsprechen.
Wenn ich das richtig verstanden habe, bedeuten die 1,3 Volt dann die Basis-Spannung vom Basis-Takt (vom 3,6 Ghz und/oder 3,1 Ghz), was dann im Gegensatz zu Llano (1,4 V) auf eine geplante Soll-Spannung hindeutet.
Somit könnte das auf eine jetzt ziemlich ausgereifte 32nm-Fertigung hindeuten.

Eine jetzige ausgereifte 32nm-CPU-Fertigung wäre auch ganz so Unlogisch, falls die No-32nm-SOI-CPU-Problems-Gerüchte bzw. iGPU-32nm-SOI-Only-Problem von Llano stimmen sollten, während Bulldozer bisher das Problem der Bugs hatte.
 
Zuletzt bearbeitet:
Hi, also ich kann deine Meinung durchaus verstehen was den Verbrauch angeht.
Allerdings reden wir hier von auf das Jahr gesehen, recht kleine Beträge, wenn die Kiste nicht 24/7 mit Dauerlast läuft.

Ich habe 2 Systeme, eins im Wohnzimmer (HTPC) und in meinem Zimmer die Workstation.
Du siehst, so unrealistisch ist das nicht und ich nehme mal an, dass ich damit nicht der einzigste bin.

Man sollte nicht immer von sich auf andere schließen! ;)

Es ist sicher immer unterschiedlich, welche Aufgaben ein Zweit-PC übernehmen soll. Mir fällt nur recht wenig ein, was ein HTPC da beisteuern kann, das liegt aber wahrscheinlich an meiner Nutzung des PCs.

Ich habe hier gemeint die Meinung rauszulesen, dass der Verbrauch nicht so wichtig ist und wollte da einfach widersprechen. Auch wenn es je nach Nutzung tatsächlich nur um geringe zweistellige Euro-Beträge pro Jahr gehen kann, so ist das schon erwähnenswert. Zudem müssen Netzteil und Kühlung stärker berücksichtigt werden, was die Anschaffungskosten erhöht und was auch zu einer höheren Lautstärke führen kann.

Wir wissen natürlich noch nichts sicheres, aber wenn die kommenden AMD-Prozessoren sehr viel verbrauchen sollten, dann wäre das für mich ein klares Gegenargument. Einzige Ausnahme: Wenn dafür der idle-Verbrauch erheblich nach unten gehen sollte und die durchschnittlichen Verbrauchswerte gering bleiben sollten, kann ich auch mit einem relativ hohen Lastverbrauch leben.

Dafür müssen aber noch echte Tests abgewartet werden.
 
Was ihr bei der 2 Geräte Diskussion gar nicht dabei habt, sind doppelte Produktionskosten Transport etc, mag in der Geldbörse noch irgendwie schön zu rechnen sein aber ich probiere eigentlich keinen unnötigen E-Schrott zu kaufen.

@Lord Raven okay 4 mal FPU ist ein Punkt bei den anderen Szenarios müsste man testen was besser ist von Performance/watt ob 2x2 oder 4x1 hängt sich an der Implementierung Power Gating & CO und vermutlich auch am Code der ausgeführt wird.

Ich bin ja von Desktop BD nicht 100% überzeugt aber das Konzept macht echt Spaß wenn man 955 nicht noch ewig reichen würde ;-)
 
Also ich verstehe noch immer nicht was ihr mit
2x2 od 4x1 meint? Könnt ihr mir das bitte erklären?
 
2x 2 Module mit cmt -> 4 Int Kerne 2 FPUs
4x 1 Module ohne cmt -> 4 Int Kerne 4 FPUs
 
Es ist sicher immer unterschiedlich, welche Aufgaben ein Zweit-PC übernehmen soll. Mir fällt nur recht wenig ein, was ein HTPC da beisteuern kann, das liegt aber wahrscheinlich an meiner Nutzung des PCs.
Ich nutze den Laptop als HTPC, Office, Internet, CD-Spieler, DVD Spieler, Server, Mp3 Player usw. Da du ja hier im Forum schreibst nehme ich mal an, das du zumindest auch einen PC zum surfen nutzt.
Der Laptop benötigt 16 Watt inkl. Monitor. Hat 179€ gekostet. Neu, 24 Monate Garantie. Bei o.g. Anwendungen kein Unterschied zu einem Gulftown @ 4,5 Ghz... Benötigt aber nur ein Zehntel der Energie wie meine Powerkiste bei der mich dann aber die Energieeffizienz nicht im geringsten juckt..Wobei das so auch nicht stimmt. Berücksichtige ich die massive Rechenleistung ist die Energieeffizienz sogar sehr hoch im Vergleich, Idle ist halt unterirdisch, aber das Gerät wird dafür auch nicht genutzt..

Ich habe hier gemeint die Meinung rauszulesen, dass der Verbrauch nicht so wichtig ist und wollte da einfach widersprechen. Auch wenn es je nach Nutzung tatsächlich nur um geringe zweistellige Euro-Beträge pro Jahr gehen kann, so ist das schon erwähnenswert. Zudem müssen Netzteil und Kühlung stärker berücksichtigt werden, was die Anschaffungskosten erhöht und was auch zu einer höheren Lautstärke führen kann.
Genau deswegen ist es ja auch ineffizient für die von mir oben genannten Anwendungsgebiete ein System auf Basis eines Sandy Bridge P67/Z68 Systems aufzubauen. Und genau deswegen ist es unklug nur den CPU zu berücksichtigen. EIn CPU macht keinen Rechner aus.
Wiegesagt - ich benötige 16 Watt INKLUSIVE Monitor für die Zeilen die ich gerade schreibe. Und das Gesamtsystem kostet soviel wie ein SB 2500K alleine mit Boxedkühler *buck*

Wir wissen natürlich noch nichts sicheres, aber wenn die kommenden AMD-Prozessoren sehr viel verbrauchen sollten, dann wäre das für mich ein klares Gegenargument. Einzige Ausnahme: Wenn dafür der idle-Verbrauch erheblich nach unten gehen sollte und die durchschnittlichen Verbrauchswerte gering bleiben sollten, kann ich auch mit einem relativ hohen Lastverbrauch leben.
Jaja, schon klar.

Dafür müssen aber noch echte Tests abgewartet werden.
Sososo. Bei welchem Test wird den mal der Kilowattstundenverbrauch so auf ~3 Monate durchschnittliche Nutzung hochgerechnet? Manmanman. Lasst eich doch net immer vom Marketing so verarschen! Es gibt kaum praxisrelevante Gründe für den Enduser (ich will nicht bestreiten dass es sie gibt - aber es betrifft nur eine Minderheit) - die so eine Haarspalterei beim Energieverbrauch auch nur im Ansatz rechtfertigen. Weder macht das bei der Kühlung einen relevanten Unterschied, noch bei der jährlichen Stromrechnung, noch wirste irgendeinen Unterschied in der Performance bemerken. Alles nur graue Theorie - kaum Praxisrelevanz..

Was ihr bei der 2 Geräte Diskussion gar nicht dabei habt, sind doppelte Produktionskosten Transport etc, mag in der Geldbörse noch irgendwie schön zu rechnen sein aber ich probiere eigentlich keinen unnötigen E-Schrott zu kaufen.

Sehe ich auch so. Daher sollte man versuchen die Hardware möglichst lange zu nutzen und dann rechnet sich das auch wenn man zwei Geräte sich anschafft. Die Energieeinsparungen sind recht hoch. Ich spare etwa 50 Watt gegenüber einem Sandy Bridge System mit dedizierter Grafikkarte bei Fernsehschauen, Musikhören, etc. Mein letzter Laptop war 7 Jahre im Einsatz bevor er erneuert wurde. Wobei das Gerät aktuell elf Jahre alt ist und immer noch funktioniert, allerdings zu unergonomisch - für vieles allerdings auch noch ausreichend.... Ich denke mit der aktuellen Hardware kann die Nutzungsdauer wieder auf etwa 6 -.10 Jahre festlegen. Musicplayback, Internet, Office und Co benötigt ja nur geringe Anforderungen an die Hardware >siehe Zacate, Atom, etc..

Zurück zum Bulldozer. Ich erwarte da keinen geringen Idlestromverbrauch. Das ist mit AM3+ Systemen nicht möglich..Dafür gibt es bei AMD die Llano Plattform auf Basis FM1... Bulldozer ist Performance und soll ja den Thuban im High-End Segment ablösen. Sicher wird es auch kleinere Modelle geben, aber die Plattform insgesamt nicht dafür ausgelegt minimalen Idle-Stromverbrauch zu erzielen und muss es auch gar nicht....

Trinity wird da schon eher interessant, bzw. Next Gen APU

MfG
 
Zuletzt bearbeitet:
Dresdenboy schrieb:
Fakt ist: in weiten Grenzen kann ich die FO4-Tiefe der Pipeline wählen u. ggf. für bisher 1taktige Stufen auch mehr Takte einplanen. Dann käme auch schonmal ein 6-wide 6 GHz Design heraus. Eine mir bekannte Veröffentlichung hat das schonmal untersucht.
Gibts da eine Übersetzung für Architektur-Noobs?
Die fettmarkierten Stellen sind die Bereiche wo ich ausgestiegen bin.
Generell: FO4 (Fan-out-of-4) ist ein Maß aus dem elektronischen Schaltungsdesign und stellt die Schaltdauer einer einfachen Standardschaltung dar. Das ist über verschiedene Prozesse recht konstant. Das ersetzt eine Zeitangabe, welche variabel wäre.

FO4-Tiefe einer Prozessorpipeline: Damit meine ich, wieviel Zeit jede Pipelinestufe des Designs zum Schalten benötigen darf. Hohe FO4-Zahl: die Pipelinestufe braucht lange -> niedriger Takt. Und vice versa bei niedrigen FO4-Werten.

Mit mehr Takten für bisher 1 Stufe meinte ich: eine Stufe der Pipeline (z.B. Registerfile auslesen) darf sich bei hohen Takten dann auch mal 2 Takte gönnen. Mit 1 Stufe könnte das z.B. mit 12 FO4 umgesetzt werden, mit 2 Stufen dann sogar mit 6 FO4. (Wegen weiterer Faktoren heißt das aber nicht einfach doppelter Takt).

Mit 6-wide meinte ich einfach einen Prozessorkern, der auf parallele Bearbeitung von 6 Befehlen ausgelegt ist (SB: 4, K10: 3).

Aber das interessante an den 8,4 Ghz @ 32nm-Bulldozer ist ja, dass die 32nm-Llano-CPUs sich so extrem schlecht (gegenüber 45nm) übertakten lassen.
Durch die Möglichkeit, dass die Llano-32nm-CPUs viel viel weniger auf Takt & Strom als die Bulldozer-32nm-CPU optimiert wurde, lässt sich Bulldozer durch eine neue Varibale sich jetzt noch schwieriger einschätzen.
Llano könnte zur Reduktion der Leakage mehr der sparsameren Transistoren nutzen, die dann wieder nicht so gut hochtaktbar sind.

Wenn ich das richtig verstanden habe, bedeuten die 1,3 Volt dann die Basis-Spannung vom Basis-Takt (vom 3,6 Ghz und/oder 3,1 Ghz), was dann im Gegensatz zu Llano (1,4 V) auf eine geplante Soll-Spannung hindeutet.
Somit könnte das auf eine jetzt ziemlich ausgereifte 32nm-Fertigung hindeuten.

Eine jetzige ausgereifte 32nm-CPU-Fertigung wäre auch ganz so Unlogisch, falls die No-32nm-SOI-CPU-Problems-Gerüchte bzw. iGPU-32nm-SOI-Only-Problem von Llano stimmen sollten, während Bulldozer bisher das Problem der Bugs hatte.
Irgendwo (Charlie auf S|A vermutlich) las ich auch von Yield-Probs bei Llano, aber keinen bei BD.
 
@Lord Raven okay 4 mal FPU ist ein Punkt bei den anderen Szenarios müsste man testen was besser ist von Performance/watt ob 2x2 oder 4x1 hängt sich an der Implementierung Power Gating & CO und vermutlich auch am Code der ausgeführt wird.

Natürlich, völlig richtig. Performance pro Watt ist da wieder eine völlig (/teilweise?!) andere Sichtweise. Allgemein betrachtet, gefiele mir ein 4x1 Ansatz besser (wegen den in meinen letzten Post genannten Gründen) - aber das ist mittlerweile eher unwahrscheinlich geworden.

2x 2 Module mit cmt -> 4 Int Kerne 2 FPUs
4x 1 Module ohne cmt -> 4 Int Kerne 4 FPUs

Naja, ist wohl etwas unglücklich formuliert/erklärt. Besser wäre:

2x2 --> 2 Module mit CMT --> 4 Int-Cores, 2 (volle) FPUs
4x1 --> 4 Module ohne CMT --> 4 Int-Cores, 4 (volle) FPUs

LG
 
Naja, ist wohl etwas unglücklich formuliert/erklärt. Besser wäre:

2x2 --> 2 Module mit CMT --> 4 Int-Cores, 2 (volle) FPUs
4x1 --> 4 Module ohne CMT --> 4 Int-Cores, 4 (volle) FPUs

LG

Es ist auch in meine Gehirnzellen angekommen *lol*
danke Leute
 
Interessanter Thread auf XS, wo Movieman die anderen ein wenig "teast":
http://www.xtremesystems.org/forums...-at-8429-MHz&p=4949106&viewfull=1#post4949106

Now there are things I can't talk about yet but I can say I think they have a winner here.
I saw the benches...
wasntme.gif

Patience my friend, won't be that long..not long at all..
wink.gif
.
EDIT :
.

Jemand auf AT wies auf den K7-Launch hin, wo die Preview Ergebnisse noch ganz andere waren als beim Launch:
http://firingsquad.com/hardware/k7550preview/page7.asp
http://www.firingsquad.com/hardware/athlon600preview/page13.asp
 
Langsam glaube ich hinter dem mehr als stabilen Aktienkurs stecken eine Menge Insider, die mehr wissen. Wenn diese schwache facts gesehen hätten, wäre der Kurs eher abgestürzt anstatt 25 % zu steigen.
 
Zuverlässigster Indikator sind meiner Meinung nach die Preise. Und die sehen nicht gut aus.
 
Zuletzt bearbeitet:
Wenn Man(n)/Frau so etwas bei Intel-Prozessoren schreiben würde, würde ich zustimmen.
AMD will und muss jedoch Marktanteile zurück erobern. Dies wird man nicht, wenn man etwas gutes hat was sich niemand Leisten will, da es zu Preisintensiv ist.
Ergo geht das nur über massive Verlosungen oder niedrige Preise.

Gruß Lehmann
 
Ich hab ja immer gesagt man soll nicht so schwarz sehen vor dem Launch...

@dresdenboy
Du solltest vielleicht noch "pro Stufe" dazuschreiben bei deinem 12FO4/6FO4 - Beispiel.
Sonst kommt noch jemand auf die Idee das auslesen des Registers ginge im Design mit zwei Stufen wirklich doppelt so schnell... *noahnung*

Kurzgesagt, es ist schlicht eine frage der Arbeitsteilung... entweder ich zerlege eine Aufgabe in 20 kleine teile, bin mit jedem teil schnell fertig, habe aber eben auch 20 zu machen.
Oder ich teile nur in 10 Teilaufgaben, dann dauert jede einzelne länger, dafür sind es aber nur 10. Effektiv wird die Aufgabe davon nicht schneller fertig, aber die Rahmenbedigungen sind anders.
Kurze Schaltzeiten bedeutet hohe takte, aber in dem Fall mit langer Pipeline. Der andere Fall hat längere Schaltzeiten, also niedrigere takte, kommt aber nach weniger schritten zum Ergebnis.
Wie man nun die Schaltung auslegt ist eigentlich variabel, nur setzt die Physik eben Grenzen bei der Taktung, also ist ein zu sehr auf hohe Takte ausgelegtes Design eben energietechnisch ineffizient... Das haben wir beim P4 gesehen.
Aber es kann auch durchaus seine Vorteile haben gewisse Pipelinestufen weiter zu unterteilen um gewisse Timing-Geschichten zu optimieren fürs Scheduling usw.
Ebenso kann es auch bei Designs mit hoher IPC dennoch zu taktproblemen kommen wenn die Fertigung nicht so gut mitspielt... schlechte Transistoren die noch länger zum umladen benötigen als vorgesehen... es gibt kein "Allheilmittel" und ich behaupte keiner von uns kann sich hinstellen und sagen "so und so wird eine CPU richtig gebaut..." - manchmal glaub ich es ist wie beim Fliegen, man plant eine perfekte Landung, aber ob es auch so klappt... nunja... *schulterzuck*
 
Zuverlässigster Indikator sind meiner Meinung nach die Preise. Und die sehen nicht gut aus.

Wenn AMD diese Preise halten könnte, wären sie an sich recht ordentlich. Zudem muss AMD mit aggressiven Preisen gegen Intels etablierte SB-CPUs in den Markt gehen. Wenn das aber nur Launchpreise sind, die schnell fallen, weil die CPUs einfach nicht gut genug sind, dann sähe es nicht wirklich gut aus...
 
Also echte Benchmarks vom Bulldozer habt ihr hier noch nicht gesehen - sofern die Benchmarks nicht bei AMD schlechtere Codepfade verweden - verliert der SB im Großen und Ganzen, ok einige Latenzen sind vom SB besser...

AMD hat definitiv erkannt, dass "Leaker" problematisch sind, also haben Sie eine Handbremse in die BIOSe eingebaut, die erst kurz vor dem Launch entfernt werden !

Gegenüber den wichtigen Partner (vorallem Cray, HP, IBM, Dell, Microsoft...) hat man richtige BIOSe verwendet - sonst würde Cray zB seine neuen Supercomputer nicht mit Bulldozer bestücken sondern weiterhin mit MagnyCours.

In 3 Wochen wissen wir mehr ;)
 
Beweis durch Behauptung? (, würde Markus jetzt sagen....)
 
Jemand auf AT wies auf den K7-Launch hin, wo die Preview Ergebnisse noch ganz andere waren als beim Launch:
http://firingsquad.com/hardware/k7550preview/page7.asp
http://www.firingsquad.com/hardware/athlon600preview/page13.asp
AMD hat definitiv erkannt, dass "Leaker" problematisch sind, also haben Sie eine Handbremse in die BIOSe eingebaut, die erst kurz vor dem Launch entfernt werden !
Vielleicht passt das dazu, Ronny145 hat Agesa 1.1.0.0 bei AsRock entdeckt:

http://www.asrock.com/mb/download.asp?Model=990FX%20Extreme4&o=BIOS

Aktuell bisher war 0.0.9.2 ... schon ein tüchtiger Sprung.
 
Kurzgesagt, es ist schlicht eine frage der Arbeitsteilung... entweder ich zerlege eine Aufgabe in 20 kleine teile, bin mit jedem teil schnell fertig, habe aber eben auch 20 zu machen.
Oder ich teile nur in 10 Teilaufgaben, dann dauert jede einzelne länger, dafür sind es aber nur 10. Effektiv wird die Aufgabe davon nicht schneller fertig, aber die Rahmenbedigungen sind anders.
1 Frau braucht 9 Monate (+-) für ein Baby. Wie lange brauchen 10 Frauen?
Wie man nun die Schaltung auslegt ist eigentlich variabel, nur setzt die Physik eben Grenzen bei der Taktung, also ist ein zu sehr auf hohe Takte ausgelegtes Design eben energietechnisch ineffizient... Das haben wir beim P4 gesehen.
Nicht unbedingt. Wenige schnelle Transistoren können u.U. effizienter sein als eine Menge langsamerer Transistoren, die vor sich hin leaken.
es gibt kein "Allheilmittel" und ich behaupte keiner von uns kann sich hinstellen und sagen "so und so wird eine CPU richtig gebaut..." - manchmal glaub ich es ist wie beim Fliegen, man plant eine perfekte Landung, aber ob es auch so klappt... nunja... *schulterzuck*

Volle zustimmung. Runter kommt man immer.
 
1 Frau braucht 9 Monate (+-) für ein Baby. Wie lange brauchen 10 Frauen?

Falscher Vergleich. Pipelinestufen sequenziell und nicht parallel angeordnet.

Ein Eimer braucht einen langen Arbeitstakt, wenn du den Eimer alleine 10m weiter bringen musst. Bei einer Eimerkette aus 10 Leuten brauchst du 10 kurze Arbeitstakte.
 
Zuletzt bearbeitet:
Bezog sich darauf, dass man nicht alles beliebig in Teilaufgaben zerlegen kann.
Gerade beim X86 Befehlssatz, der ja doch recht komplexe lange Instructionen enthält.
OK, werden intern in µOPS zerlegt.
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten