Was kommt (nach den ersten Deneb (K10.5+)) fuer den Desktop bis zum Launch der BD(APUs)?

Ja klar, ich will nur sagen, wenn man im Schatten eines großen steht, muss man umso mehr strahlen um aufzufallen.
Wenn mans nicht tut, wird man erst recht nicht wahrgenommen. Ich meine, mit welchem Argument sollte man denn aktuell die "Presse" für einseitige Berichterstattung geißeln?
Wenn AMD es schafft nachweislich besser zu sein, nachvollziehbar und mit klaren Zahlen, fakten belegbar, dann kann man den Berichterstattern immernoch auf die Finger klopfen. Du hast zwar Recht mit dem FX-60, aber wir haben nun 2010. Es gab genug KArtellprozesse und anderes Gedöns, wir leben im Zeitalter der Netbooks, wo technisch komplett unbedarfte Altenpflegerinnen ein Netbook in der Handtasche mit sich herumtragen.
Wir leben in Zeiten von Social Networks, 3D-Chatprogrammen etc....
Das Produkt und die wErbung müssen einher gehen, das ist wahr, aber der unbedarfte der ein wenig was ind er Birne hat, fragt freunde, Kollegen etc. um Rat beim PC-Kauf und wenn er da allerorten nur hört dass Intel der Mercedes unter den Prozessoren sei und AMD eher FIAT, naja...
Suchs dir aus.
Ich möchte in der aktuellen Situation jedenfalls nicht in der Haut von AMDs Marketingabteilung stecken, die außer Sockelkomplatibilität (und das trifft nichtmal jeden) und Preis keine Pro-Argumente vorzubringen haben.
Auch im Servermarkt ist es extrem wichtig glänzen zu können mit guter Leistung. Die Istanbuls leben von der Aufrüstbarkeit bestehender Opteron-Plattformen. Aber der TRumpf wird nicht ewig halten...
MC und Konsorten sind ein Zwischenschritt, aber wenn BD nicht wirklich eine Schippe drauflegt, mit welchem Argument soll der sich dann bitte gegen Sandy Bridge, Haswell und die ganze Sippe durchsetzen?
 
Natürlich brauchen sie mehr Transistoren, gleichen das aber durch dichter gepackte caches wieder aus...
Aber nicht bei 32 nm. ;)

und wir wissen auch nicht genau welchen Anteil am Transistoroverhead diese dedizierte Stromspar-Logik trägt die auf Nehalems implementiert ist.
Doch, wissen wir. Etwa 1 Million Transistoren.

Selbst wenn man einem PhenomII und einem Core i5 die selbe IPC bescheinigen würde (was IMHO nicht ganz haltbar ist, aber machen wir es spaßeshalber mal) dann hat der Nehalem immerhin noch den Stromverbrauch als Vorteil für sich zu verbuchen.
Aber nicht, wenn du vergleichbare Plattformen vergleichst. Nehalem hat insgesamt zwar mehr IPC, braucht dafür aber auch mehr Strom als ein Phenom. Schau dir einfach mal Bloomfield an. Schliesslich gibt es nicht nur Lynnfield, wo die dazugehörigen Boards idR nicht so reichhaltig ausgestattet sind wie 790FX und Vergleiche sowieso oft recht schwammig ausfallen.

und seit Conroe kann Intel den Spieß einfach umdrehen und AMD steht wieder als verlierer da... nach dem Motto, man ist sogar von den eigenen, alten Tugenden (stromsparend zu sein) abgekommen.
Das hat aber nichts mit Technik zu tun, sondern mit Marketing. Und wir sollten uns hier doch bitteschön auf ersteres konzentrieren. AMD ist definitiv stromsparend, das waren sie auch zu Conroe Zeiten. Modelle, die da aus der Reihe tanzen, gibt es natürlich immer wieder, genauso bei Intel.

Ich weiß nicht so Recht... einige Übertreiben hier mal wieder.
Ist leider meistens so. Einige gehen halt nur von den eigenen Präferenzen aus, verstehen aber nicht im geringsten, was wichtig für den Markt ist und lassen sich von PR zu leicht beeinflussen.
 
AFAIK ist der Gewinn von 3-issue zu 4 issue sehr marginal aber von 2 auf 3 war da glaubich schon ein deutlich 2-stelliger prozentwert veranschlagt, oder irre ich mich da?
Da irrst Du, der zweistellige Bereich war von 1issue auf 2. Von 2 auf 3 wars was um 5%, und davon auf 4issue war noch 2-3%.
Quelle: Hans de Vries auf aceshardware, sollte hier schon irgendwo verlinkt gewesen sein.
Edit:
http://aceshardware.freeforums.org/post10678.html#p10678
A 2-way superscalar processor can reach 80%-100% of the performance
of a 3-way for lots of applications. Only a subset of programs really
benefits from going to a 3-way. A still smaller subset benefits from going
to a 4-way superscalar.
Deswegen winde ich mich innerlich immer noch gegen die angeblichen 4issue INT Kerne beim Bulldozer. Selbst wenn JF auf amdzone schreibt, dass sie die "Peaks" ausschöpfen wollen ...
Aber was weiss ich schon vom Chip Design ...

ciao

Alex
 
Ja klar, ich will nur sagen, wenn man im Schatten eines großen steht, muss man umso mehr strahlen um aufzufallen.

So ist es! Und leider reicht da allein der Preis wohl nicht. Grosse andere Truempfe bei den CPUs hat man im Moment nicht, da waere vielleicht noch der Unterbau der Desktopplattform sprich AMD ist einem Directx onboard naeher als Intel (Warum tun sie es bloss nicht??) - aber hoffen wir auf Lliano und vor allem BD.

Fast noch schlimmer als zu Pre PhII Zeiten - dass der naechste Schuss sitzen muss und man sich keine Fehler erlauben darf; denn es gilt zu vermuten, dass der BD und seine Abkoemmlinge es fuer AMD in den naechsten Jahren richten muss.
 
3. AMD hat SSE4a, IBS, 3Dnow, maSSE, ABM, WDT, P1GB, ... ach und die neuen AMD CPUs der K12 Serie haben noch SSSE3, SSE4.1-2, AVM, SSE5



Gibt es für die fett markierten Abkürzungen irgendwo einen Klartext?


DANKE

@
 
IBS = Instruction Based Sampling
MASSE = MisAlignedSSE
ABM = Advanced Bit Manipulation
WDT = WatchDog Timer
P1GB auch PG1G = 1GB Page Size
 
Bringen wirs doch auf den Punkt. AMD hat seit Jahren keine Enthusiasten CPUs im Vergleich zu Intel, kann aber über die Plattform preismässig punkten. Informierte Leute verbauen Athlons für Büro und Internetrechner (Atoms sind einfach zu lahm. Punkt.), Phenoms für Spielerechner (da der I7 es in Spielen nicht so bringt und man das gesparte Platform-Geld in SSD oder bessere Graka investieren kann) und Intels in Workstation/Encoding CPUs (weils da die Keren reissen). Uninformierte Leute kaufen sich entweder Rechner vom Discounter (ab und zu mal mit AMD CPU), aus dem Mediamarkt (such den AMD Rechner, such, such) oder nach dem längsten Balken in Zeitschrift XYZ oder auf zyx.de. Daher:

Das wichtigste an Bulldozer ist für mich eine klare Produktpalette, die preislich breiter aufgestellt ist und alle Bereiche mit der passender Performance abdeckt. Momentan kann ich mir von 65 - 85 Euro etliche Prozessoren vergleichen, ohne auf einen Nenner zu kommen weil sichs unter 100 € wahnsinnig drängt und darüber wirds schnell dünn.

Ich hätte gerne:

Enthusiast: BD m4 x8 mit vollem Cache bis 500 €
Performance: BD m2 x4, evtl. mit reduziertem L3 Cache bis 300 €
Budget: BD m1 x2 wieder ohne L3 bis 100 €

(m = module, x = kerne)

mit 3,0 - 4,5 GHz Taktung. Meinetwegen kann der beste Prozessor dann auch 1000€ kosten, sofern endlich mal eine transparente und konstistene Produktlinie für alle Bereiche an den Start kommt, bei der man sich nicht 2 Wochen später ärgert, warum man sich 20 € beim Prozessor gespart hat.

Dazu noch ein paar e-Modelle, Llano für Notebooks und Bobcat für Netbooks und ähnliches und badabum: Mit dem entsprechenden Marketing (MediaMarkt ist eh rot:-) und einem neuen Intel-Compiler ohne AMD Benachteiligung (sehr guter Artikel hier) könnte es richtig bergauf gehen.

Greetz,
GHad
 
Desdenboy schrieb:
+ evtl. doch nur 2 ALUs/2 AGUs per core (steht in paar Patenten ja so drin)
Bobcat hat ja auch 2 Intege-Pipe (ALU) + 1 L-Pipe + 1 D-Pipe, falls ich das jetzt richtig ausgesprochen habe.
Damit erreichen sie mit 50% Die-Fläche 90%-Performance.
Was spricht eigentlich dagegen, einen ähnlichen Aufbau mit einer größeren FPU zu nehmen?
Bulldozer soll 180% (=2x90%) Integer-Performance bei 112+% (=50x2%+Mehr) Modul-Fläche bekommen.

Was ist eigentlich der Unterschied zwischen
2 ALUs / 2 AGUs per Core und
2 ALUs + 1 L-Pipe + 1 D-Pipe ????
Leider habe ich nichts zu lesen gefunden, was den Unterschied zwischen ALU & AGU & L-Pipe & D-Pipe erklärt.

Was ist effizienter.

Kann es überhapt eine universelle Integerpipleline geben, die ALU oder AGU oder L oder D kann????

Interlagos_Performance_s.jpg
http://images.google.at/imgres?imgurl=http://info.nuje.de/Interlagos_Performance_s.jpg&imgrefurl=http://citavia.blog.de/&usg=__N419bIxQfR-6_jthkLYpiFwCswM=&h=281&w=500&sz=36&hl=de&start=9&um=1&tbnid=kJVsMgohphpRnM:&tbnh=73&tbnw=130&prev=/images%3Fq%3DInterlagos%2Bamd%26hl%3Dde%26client%3Dfirefox-a%26rls%3Dorg.mozilla:de:official%26sa%3DN%26um%3D1

So ein 2x2-Integer-Cluster würde doch am besten zu diesem Bild passen, da die Integer-Skalierung unter 100% ist.

---------------------------------

Ich habe da noch eine Frage.
Es ist auffällig, wie klein der L2 bei Nehalem (24,4mm² ohne L2) geworden ist. Bein Penryn war der L2-Chase ca. 110% so groß wie der Core selber. Beim Nehalem hat der L2-Cache nur mehr 10% der Größe des Cores.
Das ist eine enorme Steigerung, oder täuscht das nur, weil jetzt viele Aufgaben des L2-Cache der L3-Chache übernommen hat?????

Im Vergleich dazu der Deneb-Core (ca. 15,2 mm² ohne L2)
Der L2-Cache ist im Vergleich zum Deneb-Core nur 35% groß.
Wird es da Einsprungen geben oder bleibt der L2-Cache realative gesehen mit 30-35% der Core-Fläche??????

----------

Interessant ist auch
laut www.chip-architekt.com

Deneb-Core soll ca. 15,2 mm² sein.
Nehalem-Core soll ca. 24,4 mm² sein.
Beide Kerne verbrauchen bei 45nm & 3,0 Ghz (& Quad) ca. gleichviel Strom, obwohl die Die und AFAIK die Logik-Transistorn im Core um 60 bzw. 50% größer sind.
Finde ich interessant. Kann da wer was interpretieren bzw. erklären, warum das so ist?
 
Aber nicht, wenn du vergleichbare Plattformen vergleichst. Nehalem hat insgesamt zwar mehr IPC, braucht dafür aber auch mehr Strom als ein Phenom. Schau dir einfach mal Bloomfield an. Schliesslich gibt es nicht nur Lynnfield, wo die dazugehörigen Boards idR nicht so reichhaltig ausgestattet sind wie 790FX und Vergleiche sowieso oft recht schwammig ausfallen.
Momentmal, bin ich im falschen Film?
Wo braucht Lynnfield mehr strom als ein Phenom!? :o

Abgesehen davon, bist du es nicht immer der predigt dass Bloomfiled garnicht der anvisierte Gegner des PhenomII ist? - Wieso bringst du dann jetzt Bloomfield als Vergleich daher?
Der hat immerhin ein Triplechannel-Speicherinterface und ist eine Workstation-CPU mit wirtuellen 8 Kernen, der darf wohl auch ein bisschen hungriger sein... zudem ist er auch wieder ein schönes Stück älter als Lynnfield...
Der Lynnfield-Kern hat gezeigt was mit der Nehalem-Architektur möglich ist und ür die Transistoranzahl etc, gibts da beim Stromverbrauch nun wirklich nix zu meckern... wieviele Lynnfields haben 140W TDP, so wie die PhII 965 zu ihren "Glanzzeiten" ?

Und bitte verschon mich mit dem Unterschied in der TDP-Definition oder dem Geschwafel über Marketing und Technik, ich bin nicht blöde.
Der Jux ist aber, dass das nicht jeder weiß. Menschen sind in der MAsse oberflächlich, sie fällen schneller Urteile und beurteilen mehrheitlich nach dme ersten Eindruck. Und wie wichtig Image, Meinung und dergleichen ist brauche ich wohl hier nicht erst breitzutreten, oder?

grüßchen
ich
 
... 3. AMD hat SSE4a, IBS, 3Dnow, maSSE, ABM, WDT, P1GB, ... ach und die neuen AMD CPUs der K12 Serie haben noch SSSE3, SSE4.1-2, AVM, SSE5
4. wie lange noch, wenn die FTC fertig ist ...
Ich liebe Akronyme. Noch um so mehr, wenn ich auch die Bedeutung einzuordnen weiss.

Aber bis auf die ausgeschriebenen Abkürzungen (dafür ein fettes Danke), kann ich sie meistenteils nicht einsortieren.

Ich schenke mir und dir mal die 3DNOW! und SSE-Varianten. Lässt du uns an deiner Weisheit teilhaben, aus welcher Quelle du dies geschöpft hast?

Da ist so viel komprimiertes Wissen drin, dass eine kleine Erläuterung dazu oder eine Quellenangabe bestimmt uns allen Interessierten ein klitzekleines Stück weiterhilft.

Ach, noch was. Du willst doch die bescheidene SSE4-Fortschreibung von AMD namens SSE4a nicht vergleichen wollen mit SSSE3, SSE4.1 (und SSE4.2)? Die zwei und vier neuen Befehle hätten genauso gut SSE3.B genannt werden können, oder SSE3.F für jeden Befehl sozusagen ein eigener Buchstabe *lol*

3DNOW! und SSE5 und auch AVX sind hingegen geradezu eine komplette Neuerfindungen eines umfänglichen Instruktionssatzes.

MFG Bobo(2010)
 
Zuletzt bearbeitet:
Momentmal, bin ich im falschen Film?
Wo braucht Lynnfield mehr strom als ein Phenom!?
Wer hat das behauptet? Ich sprach von Bloomfield, da der ähnlich ausgestattete Boards wie AMDs 790FX hat.

Abgesehen davon, bist du es nicht immer der predigt dass Bloomfiled garnicht der anvisierte Gegner des PhenomII ist? - Wieso bringst du dann jetzt Bloomfield als Vergleich daher?
Bloomfield ist eine Plattform, nicht nur eine Prozessorserie.

Der hat immerhin ein Triplechannel-Speicherinterface und ist eine Workstation-CPU
Der ist in erster Linie eine Desktop Enthusiasten-CPU.

zudem ist er auch wieder ein schönes Stück älter als Lynnfield...
Und? Deneb ist auch ein gutes Stück älter.

wieviele Lynnfields haben 140W TDP, so wie die PhII 965 zu ihren "Glanzzeiten" ?
Tolle Rosinenpickerei. Wie viele Phenom II haben denn 140 W TDP ausser dem ersten X4 965? :] Und nur zur Info, würde Intel mit den gleichen Toleranzen wie AMD die TDP spezifizieren, müssten die grossen Nehalems mehr als 130 W haben. ;)

Also lass dein sinnfreies Gesülze über Marketing stecken. Das will hier keiner lesen. Hier geht es um das, was nach K10.5 kommt. Willst du über Nehalem oder anderen Käse sprechen, würde ich einen anderen Thread empfehlen oder notfalls per PN. Also b2t.
 
Auch wenn es dir entgangne sein sollte, es geht eben gerade darum was nach K10.5 kommt, weil das hier und jetzt die Erfordernisse für die Zukunft definiert!

Die Board-Ausstattung obliegt dem Board-Hersteller und hat somit nur indirekt was damit zu tun ob der Prozessor stromsparender ist oder nicht.
Fakt ist, Lynnfield ist ebenfalls ein 45nm Quadcore, der sich leistungstechnisch ganz und garnicht hinter PhenomII verstecken braucht, aber mit weniger Strom für diese Aufgabe auskommt.
Sowas ist ein Maßstab an dem sich der PhenomII-Nachfolger messen lassen muss!

Und falls du es noch nicht gemerkt haben solltes,t Marketing ist ein Teil eines Produktes! - Dir nutzt das beste technologische Teil seit Leonardo Da Vincis Flugmaschine nichts, wenn du es den Leuten nicht irgendwie schmackhaft machen kannst.
Ergo, das was nach K10.5 kommt, muss Eindruck schinden! - Das ist die ganze Kernaussage der sinnlosen Diskussion die wir seit mehreren Seiten führen.

Der springende Punkt ist, AMD hat sich die letzten Jahre in den öffentlichen Augen nicht gerade mit Ruhm bekleckert, der Ruf ist, je nach Szene irgendwo zwischen "find ich ganz ok" und "kommt mir nicht ins haus". Und während das Intel-Logo dem Kunden auf fast jedem Rechner ins auge Scheint, egal ober er zu Saturn, Blödmarkt, Aldi oder sonstwohin geht, stärkt auch nicht gerade das vertrauen der Leute in etwas anderes das sie nicht kennen.
Du willst über Technik diskutieren, ok.
Aber die Technik haben wir seit wenigstens 30 Seiten totdiskutiert. Und für den Erfolg, den wir AMD alle wünschen, ist es mehr oder minder unerheblich ob wir 2x2 issue mit 3,5-4Ghz haben oder 2x4 Issue mit irgendwas um 3Ghz. Das ist Haarspalterei.
Das Echo zu BD wird sich daran festmachen wie er sich in den ersten Benches gegen SB und auch gegen die eigenen Vorgänger schlägt. Und sollte er auch nur in einer einzigen Disziplin gegen einen PHII verlieren, kannst du Gift drauf nehmen dass ich eine entprechend polarisierende Meldung hinterher auf sämtlichen Seite, angefangen von PC-Welt, über PCGH, Gully, Golem, Heise und was weiß ich noch alles findet und jedem Pseudo-Nerd der das liest suggeriert "AMD ist mal wieder nicht auf der Höhe..." - und was dann? - sollen wir paar Enthusiasten die AMD die Stange halten ein paar Millionen BDs abnhemen damit wenigstens die Entwicklungskosten wieder reinkommen?
Wie oft und wie lange habe ich schon zu P4 Zeiten versucht irgendwem klarzumachen dass ein Athlon64 keineswegs schlechter ist als ein P4... aber nööö...es steht ja nicht intel drauf, also kanns ja garnix sein...
Das einzige was da zählt sind unumstößliche und in sämtlichen Zeitschriften, benches etc. reproduzierbare Fakten, die man überall nachlesen kann und die besagen dass BD der Sandbrücke in dern allerwertesten tritt!
Einen Benchmarkbalen abzulesen dürfte auch dem dümmsten gelingen und ist ein Fakt das sich nicht einfach wegwischen lässt.
Da können wir mit Compiler, fairness, alternativen Betriebssystemen usw. diskutieren bis wir alt und grau werden, glauben wird uns kein Aas!

Also zurück zur Kernaussage:
BD muss ein Glanzstückchen erster Güte werden und mindestens mit Sandy gleichziehen, um AMD vor weiterem Imageverlust zu bewahren. Da können wir deneb verteidigen soviel wir wollen, das ändert nichts an der Aussage wie die Maßstäbe definiert werden.

und da wir grade dabei sind, ich habe ein 790FX Board, nun klär mich doch bitte mal über die tollen unique superfeatures auf, die ich da habe die ich woanders nicht bekommen kann...?

Grüßchen
ich
 
Ohne Stromsparfeatures und die teuren, hochqualitativen VRMs würde Bloomfield/Lynnfield wohl eher mehr Strom fressen als der Deneb. Intel hat da geschickt taktiert und die Effizienz aufs Mainboard verfrachtet, gepaart mit super Marketing, deshalb entstand der Mythos Lynnfield/Bloomfield würde deutlich weniger brauchen. Lastet man die CPUs jedoch voll aus, sieht man recht fix, dass das nicht der Fall ist. Interessant wär mal ein Test vol Lynnfield vs. Phenom C3 mit aktiviertem C1E, sonst nix aktiv.
Nichtsdestotrotz hat Intel mit C6 und dem VRM-Design 2 Asse im Ärmel, die AMD nicht hat und ein klarer Nachteil für AMD sind. Nur sollte man hier die Kirche im Dorf lassen - so gewaltig, dass das grossartig ne tragende Rolle auf der Stromrechnung spielen würde, ist das irgendwie nicht. Das was man für einen 965 mehr als Stromkosten hat holt man durch die billigen Anschaffungskosten locker wieder rein.
 
Zuletzt bearbeitet:
Ich fasse hier auch gleich mal mehrere Antworten zusammen:

Ja, das stand ja auch in einem Deiner CMP PDFs drin, dass der Vorteil von 2x2 issue CMT gegenüber 4issue SMT wäre, dass das Design einfacher ist, weswegen der max. Takt steigt und nicht viel gegenüber der single Thread Leistung verloren werden würde.
Rein von der Logik her ist 2x2 einfach besser, zumindest laut dem Teilwissen aus den PDFs. Möglich dass es noch 1000 andere Effekte gibt, aber der einfache Aufbau leuchtet halt besonders ein.
Das hatten wir auch schonmal als Idee diskutiert. Ich werde noch weiter graben, was die Core-Vergrößerung usw. angeht. Evtl. lassen sich ein paar Dinge erkennen, bevor AMD mehr bekannt gibt, was - so wie JF klingt - z.B. bald der Fall sein könnte bzgl. der FPU-Extras (irgendwo muss der Spaß zu Spekulieren ja noch bleiben *g*).

Wieso Hälfte ? Der I$ Cache ist doch nicht geteilt, jeder (INT) Kern hat seinen eigenen I$ Cache, hatten wird vor ein paar Wochen. Quelle war Johan von ehem. aceshardware in nem Artikel für anandtech, der sich auf seine AMD Kontakte beruft. JF hats auf amdzone glaube ich auch bestätigt.
Ich musste leider nach dem Posten gleich weg u. konnte es nicht ausführlicher formulieren. Ich meinte hier das Hinzukommen des 2. L1 I$. Es könnten theoretisch auch dedizierte Ways sein (böte Flexibilität), aber extra H/W kann man auch abschalten. Das ist ja oft das Konzept der Wahl - statt Neuverwendung (für 1 Thread) für 10% Perf. lieber Abschaltung u. Power sparen. Dafür kann der 1. Core z.B. hochgetaktet werden.

Wireloop hat in den Kommentaren zu diesem Blogeintrag das Thema auch aufgegriffen. Zu meinem letzten Eintrag hat er auch noch Interessantes vorgeschlagen:
Pipe 0 -> multiplier, simple ops (add, subtract, logical)
Pipe 1 -> AGU-like, barrel shifter, branch (both direct & indirect), simple ops
Pipe 2 -> ABM, simple ops
Pipe 3 -> AGU-like, barrel shifter, branch (both types too), simple ops
Also deutlich mehr Heterogenität.

Das riecht wie ein Pentium 4 Rezept ...

Doppelt hoher Takt für einige Funktionseinheiten? Hat IBM sich nicht nach Intel auch mit dem Power6 und Cell wieder davon verabschiedet?
Das war zu anderen Zeiten. Nun kostet das bloße Vorhandensein von Schaltungen (z.B. 2 zusätzliche ALUs) mehr Leakage u. natürlich Die-Fläche, die durch die Vervielfachung der Cores weiterhin ins Gewicht fällt. Da AMD nun auswärts fertigen lässt und nach Beendigung der Vertragsregelung bzgl. Fab-Auslastung praktisch nur noch Diesize-abhängige, vollständig variable Kosten hat, wirkt sich die Fläche auch finanziell deutlicher aus.

Der damals hohe Takt des P4s (gesamt) erforderte natürlich auch viel mehr Latches u. Overhead durch das stärkere Pipelining, was kostete. Die schnellen ALUs waren dagegen so vereinfacht oder pipelined, dass sie dennoch doppelt so schnell laufen konnten mit höheren Latenzen für viele einfache Befehle. Dank Spekulation u. Replay war das OK. Praktisch liefen die ALUs mit 7 GHz, als der K8 noch bei 2 GHz lag. Laut einer Veröffentlichung aus der 130nm-Zeit war der Energieverbrauch einer schnellen ALU damals inkl. RF u. Scheduler nicht so hoch.

Nun zur Gleichung für 2011, wie ich das grob sehe (textuell zu beschreiben wird langsam umständlich):

2 ALUs:

execution_power = 2 leakage + 2 power_dynamic

double pumped ALU (gleicher Durchsatz):

execution_power = 1 leakage + 2 power_dynamic + pipelining_overhead + clocking_overhead

Wenn der Overhead kleiner ist als die Leakage einer ALU, hat man schon dort gewonnen. Dazu spart man Die-Fläche. Die dynamische Power sollte etwa gleich sein, da abzüglich des Pipelinings (soviel wird nicht notwendig sein) etwa gleichviel Schaltvorgänge pro Operation stattfinden u. durch das Pipelining die Frequenz ohne Spannungserhöhung erhöht werden kann, da die einzelnen Pipelinestufen weniger FO4-Delays lang sind.

Bobcat hat ja auch 2 Intege-Pipe (ALU) + 1 L-Pipe + 1 D-Pipe, falls ich das jetzt richtig ausgesprochen habe.
Damit erreichen sie mit 50% Die-Fläche 90%-Performance.
Was spricht eigentlich dagegen, einen ähnlichen Aufbau mit einer größeren FPU zu nehmen?
Bulldozer soll 180% (=2x90%) Integer-Performance bei 112+% (=50x2%+Mehr) Modul-Fläche bekommen.

Was ist eigentlich der Unterschied zwischen
2 ALUs / 2 AGUs per Core und
2 ALUs + 1 L-Pipe + 1 D-Pipe ????
Leider habe ich nichts zu lesen gefunden, was den Unterschied zwischen ALU & AGU & L-Pipe & D-Pipe erklärt.
Die AGUs vom derzeitigen "K10.5" sind flexibel u. jeweils für Loads, Stores oder auch noch andere Operationen verwendbar (komplexe LEA-Befehle). Spezielle Load-/Store-Pipes können nur die jeweilige Operation. Da sind dann die Datenpfade "fest verdrahtet", machts einfacher u. spart damit Platz u. Energie. Aber beim BD würde das doch etwas zuviel Leistung kosten, v.a. wo er 2 Loads/cycle pro Core kann.

Universelle Pipelines kann es schon geben. Bei den RISC-Rechnern mussten Speicheradressen oft selbst berechnet werden - mit Hilfe der ALUs. Darauf werde ich auch noch irgendwann eingehen.

Nichtsdestotrotz hat Intel mit C6 und dem VRM-Design 2 Asse im Ärmel, die AMD nicht hat und ein klarer Nachteil für AMD sind. Nur sollte man hier die Kirche im Dorf lassen - so gewaltig, dass das grossartig ne tragende Rolle auf der Stromrechnung spielen würde, ist das irgendwie nicht. Das was man für einen 965 mehr als Stromkosten hat holt man durch die billigen Anschaffungskosten locker wieder rein.
Abwarten. Irgendwann kommen bei AMD auch C6/CC6-States, APM-Boost u. demnächst im Thuban angeblich "C-State-Boost", was mit dem automatischen Overclocking aus einem AMD-Patent zu tun haben könnte. Das habe ich auf semiaccurate etwas weiter ausgeführt.
 
@ Dresdenboy

Der Thuban "C-State boost" hört sich ja mal interessant an!
Aber ich befürchte das wird wohl ein AM3 feature werden, oder meinst mit AM2+ ist das auch möglich? ;D

MfG
 
Auch wenn es dir entgangne sein sollte, es geht eben gerade darum was nach K10.5 kommt, weil das hier und jetzt die Erfordernisse für die Zukunft definiert!
Du sprachst über Nehalem, Lynnfield, Phenom II und weiss der Geier was nicht alles. Und das kommt definitiv nicht nach Deneb (K10.5). Also lass den Unsinn.

Fakt ist, Lynnfield ist ebenfalls ein 45nm Quadcore, der sich leistungstechnisch ganz und garnicht hinter PhenomII verstecken braucht, aber mit weniger Strom für diese Aufgabe auskommt.
Fakt sind nur die ersten beiden Punkte. Der Rest ist deine persönliche Interpretation. ;)

Und falls du es noch nicht gemerkt haben solltes,t Marketing ist ein Teil eines Produktes!
Was aber keinen interessiert, falls du das noch nicht gemerkt haben solltest. Die meisten hier, mich eingeschlossen, interessieren sich für die Technik. Und da stört dein destruktives Gesülze nur. Wie ich schon sagte, wenn du über Marketing reden willst, solltest du dir dafür einen anderen Thread suchen.
 
@Dresdenboy
Danke!

... Der Thuban "C-State boost" hört sich ja mal interessant an!
Aber ich befürchte das wird wohl ein AM3 feature werden, oder meinst mit AM2+ ist das auch möglich? ...
Ich habe seit geraumer Zeit die Befürchtung, dass der Thuban ein Sockel AM3-only-Prozessor sein wird.

Wie gesagt, eine persönliche Befürchtung ohne jegliche Hinweise darauf. AMD macht ja Hinweise, wie die Temperatursensoren und Spannungsregelung bei einem reinrassigen Sockel AM3 aussehen wird.
Zur Zeit haben wir noch AM3-Sockel, die von AM3-Prozessoren genutzt werden können, die auch noch auf Sockel AM2/AM2+ laufen können.

MFG Bobo(2010)
 
Zuletzt bearbeitet:
@Windhund:
Zu AM2/AM3 weiß ich noch nichts Genaues. Aber diese Technologie hängt m.E. nicht davon ab. Eher sehe ich Probleme bei den NB P-States.

@Bobo_Oberon, Opteron:
Ich habe noch etwas bzgl. schneller ALU gefunden (Sun Sheng ist von AMD):
Post-layout comparison of high performance 64b static adders in energy-delay space
Sheng Sun; Sechen, C.
Computer Design, 2007. ICCD 2007. 25th International Conference on
Volume , Issue , 7-10 Oct. 2007 Page(s):401 - 408

Summary:Our objective was to determine the most energy efficient 64 b static CMOS adder architecture, for a range of high-performance delay targets. We examine extensively carry-lookahead (CLA) and carry-select adders with a wide range of tradeoffs in logic levels, fanouts and wiring complexity. We propose sparse CLA adder architectures based on buffering techniques to reduce logic redundancy and improve energy efficiency. All the designs were implemented using an energy-delay layout optimization flow with full RC extraction. Our new 64 b adder designs have a relative delay as low as 9.9 F04 (fanout-offour inverter) delays and promise better scaling for smaller technology nodes. They yield the best energy efficiency for a wide range of delay targets and are 30%, 15% and 7% more energy efficient than full Kogge-Stone, sparse-2 Kogge-Stone and Han-Carlson, respectively, at the fastest points. They consume only about 1/3 the energy of dynamic adders.

Zum Vergleich fand ich, dass für den normalen P4-Takt 16 FO4-Delays und für die double pumped ALUs 8 FO4-Delays pro Pipelinestufe galten. Die schnellsten 64 bit Adder arbeiten in 7 FO4-Delays, aber mit mehr Energie. Weiter zum Vergleich: Barcelona hatte ~24 FO4 laut RWT. Power 6 (mit 4.7 GHz) hatte 13 FO4, Cell 11 FO4.

Der gleiche Sun Sheng hat vorher schon 64 b Adder mit 4.7 FO4-Delays in 180 nm CMOS entworfen.

Das neue Design klingt nach einer 10 FO4 Pipeline. Wenn das wirklich weniger als halb soviel wie beim K10 ist, dann können wir uns den Rest denken. ;) Vielleicht auch ein Indiz: aktuelles BD-Sample soll etwas unter 2 GHz gehabt haben. Die Hammer-Samples liefen meist mit 800 MHz...
 
Ich habe seit geraumer Zeit die Befürchtung, dass der Thuban ein Sockel AM3-only-Prozessor sein wird.

Wie gesagt, eine persönliche Befürchtung ohne jegliche Hinweise darauf. AMD macht ja Hinweise, wie die Temperatursensoren und Spannungsregelung bei einem reinrassigen Sockel AM3 aussehen wird.
Zur Zeit haben wir noch AM3-Sockel, die von AM3-Prozessoren genutzt werden können, die auch noch auf Sockel AM2/AM2+ laufen können.

Eine Befürchtung, die ich zurückweise. Thuban wird Sockel AM2+ tauglich. Als Begründung nur mal:

Winfuture AMD hat bestätigt, dass man wie erwartet im kommenden Jahr einen sechskernigen Prozessor für den Endkundenmarkt einführen will. Dieser trägt den Codenamen "Thuban" und soll nach Angaben von AMD mit dem AM2+- und dem AM3-Sockel kompatibel sein.

Gruß Banjoke

PS: Mal was zum Lachen. Die BILD-Zeitung hat ja bei sich das "Orakel von Delitzsch" (wer das auch immer ist??). Statement zu Globalfoundries:

Orakel von Delitzsch – Teil 5
So stehen die Sterne für Sachsens Firmen

Global Foundries

Es wird ein Schlingerkurs-Jahr! Ich sehe Veränderungen. Mit Entlassungen ist zu rechnen. Einige Mitarbeiter werden sich auflehnen. Das Unternehmen (früher AMD) schwächelt erheblich. Ich sehe Tränen und Schmerz, ohnmächtige Manager.

Nicht mal den Firmennamen schreiben können, aber hellsehen wollen... ;D
 
Wie wollen/sollen die auch ordentlich ORAKELN können :

Landkreis Nordsachsen (Torgau-Oschatz + Delitzsch ; abers Nummerschild is TDO ...)

UND BITTE VERWENDET "BILD" UND "Zeitung" NICHT IN EINEM WORT - BILD=!Zeitung !!!!!
 
...Vielleicht auch ein Indiz: aktuelles BD-Sample soll etwas unter 2 GHz gehabt haben. Die Hammer-Samples liefen meist mit 800 MHz.....

Das mag sein, aber sollte man da nicht auch die unterschiedlichen Fertigungstechniken bzw. Komplexitaeten beachten, so dass man das nicht unbedingt vergleichen kann..oder 'startet' man mehr oder weniger immer 'aehnlich' !?

Samples sollten ja schliesslich schon eine Weile geben..oder?
Das wird sich der erste Versuch gewesen sein..oder?
 
Das mag sein, aber sollte man da nicht auch die unterschiedlichen Fertigungstechniken bzw. Komplexitaeten beachten, so dass man das nicht unbedingt vergleichen kann..oder 'startet' man mehr oder weniger immer 'aehnlich' !?

Samples sollten ja schliesslich schon eine Weile geben..oder?
Das wird sich der erste Versuch gewesen sein..oder?

Vergleichbar sind solche Samples kaum, aber ein Indiz. Ich spiele auch nicht auf die Takte BD-Sample vs. Hammer-Sample an, sondern auf die Ratio Takt von finalem BD zu BD-Sample im Vergleich zu Opteron vs. Hammer-Sample. Also ca. X zu 1,x GHz (evtl. 1,8) und 1,8 GHz zu 800 MHz. Obwohl ich bei AMD damals auch Wafer mit riesigen 180 nm Opterons sehen konnte, waren die Samples wahrscheinlich auch schon 130 nm, zumindest wenige Monate vor dem Launch. Jetzige BD-Samples könnten laut aktueller Diskussion auch schon in 32 nm sein. Aber das ist noch früh u. der Prozess nicht ganz produktionsreif. Dennoch 45 W TDP klingen gut.
 
@Bobo_Oberon, Opteron:
Ich habe noch etwas bzgl. schneller ALU gefunden (Sun Sheng ist von AMD):
...
Zum Vergleich fand ich, dass für den normalen P4-Takt 16 FO4-Delays und für die double pumped ALUs 8 FO4-Delays pro Pipelinestufe galten.

Die schnellsten 64 bit Adder arbeiten in 7 FO4-Delays, aber mit mehr Energie.

Weiter zum Vergleich: Barcelona hatte ~24 FO4 laut RWT.
Power 6 (mit 4.7 GHz) hatte 13 FO4,
Cell 11 FO4.

Der gleiche Sun Sheng hat vorher schon 64 b Adder mit 4.7 FO4-Delays in 180 nm CMOS entworfen.

Das neue Design klingt nach einer 10 FO4 Pipeline. Wenn das wirklich weniger als halb soviel wie beim K10 ist, dann können wir uns den Rest denken. ;) Vielleicht auch ein Indiz: aktuelles BD-Sample soll etwas unter 2 GHz gehabt haben. Die Hammer-Samples liefen meist mit 800 MHz...
Mag ja sein, dass du dir viel dabei denken kannst, aber da hake ich mal nach.

- Eine Verzögerung drückt deine Angabe aus? Also je kleiner die Zahl, desto besser (-> "0" keine Verzögerung).
- Was wird denn verzögert?
- Drückt die Zahl aus wieviel Taktzyklen ein einzelner Pipeline-Baustein aufweist, bis die nächste Instruktion überhaupt erst nachgeschoben werden kann?

Bei einer F04-Zahl von 8 und 10 Stufen insgesamt, braucht die Bearbeitung einer einzelnen Instruktion im besten Falle also 80 Taktzyklen.

Müssen überhaupt die gleichen Timing-Zahlen bei allen Pipeline-Stufen vorliegen, oder kann das durchaus pro Stufe unterschiedlich sein?
Ist das einer der schwierigsten Schritte im CPU-Design überhaupt, dass sozusagen alle Stufen im Gleichklang/Takt arbeiten, damit es keine Staus in der Bearbeitung kommt?

Ich mache mal eine FO4 "Fanout-offour Inverter-Skala":

Schlecht <- K10 Barcelona: 24, P4 Normaltakt: 16, Power6: 13, Cell: 11, Spekulative Annahme AMDs Bulldozer: 10, P4 double pumped ALU: 8, beste 64 Bit (AMD)Addierer: 7, Sun Shengs Entwicklerchip-(Rekord)Beispiel 64 b Adder: 4.7 -> Gut

MFG Bobo(2010)
 
Zuletzt bearbeitet:
Dennoch 45 W TDP klingen gut.
Was für mich fast merkwürdig kling, sind die 45Watt-TDP.

Sind das wirklich so viel, oder hat man da 44Watt gemessen und sagt 45Watt-TDP dazu?
Wobei ich davon ausgehe, dass AMD die Watt sehr genau messen kann.

45 Watt für sagen wir mal 1,75 Ghz & 8/4-Core Bulldozer hört sich im ersten Moment wie "zu schön um war zu sein" an.
Aber mit 32nm (sagen wir mal -30% Stromverbrauch) kommt noch High-K, was wieder
den Spromverbrauch sagen wir um 20-30% reduziert.

Ich mein, damit können sie mit 8/4-Core & 45Watt sofort im Notebook-Markt gegen die Nehalmen-Quads mit 45Watt & 1,73 Ghz antreten.

Wobei beim Bulldozer wahrscheinlich die Spannung nicht einmal gesenkt wurde.
 
Zurück
Oben Unten