Bulldozer - AMD Fam 15h - allgemeiner Infothread

Trotzdem stellt sich die Frage in wieweit AMD in der Lage sein wird die IPC des K11 gegenüber dem K10 zu verbessern.
Jetzt da man nach ersten Tests eine wesentlich bessere Übersicht hat kann man sagen, dass die bisher bekannten Verbesserungen und auch das Fusion-Konzept des K11 wohl nicht ausreichen werden um den K11 gegenüber eine neuen Intel-Architektur (mit der es der K11 auf jeden Fall zu tun bekommt, nach Intels Zeitplan Ende ´08 ) konkurrenzfähiger zu machen als es der K10 derzeit gegenüber Conroe/Penryn ist.

Da wird AMD definitiv ein bisschen mehr aus dem Stiefel zaubern müssen.
AMD hat nicht vor von 3-fach auf 4-fach superskalar zu wechseln. Nur so wäre bei Integer noch etwas machbar. Bei der SSE sind optimierte Befehle sinnvoll, was aber an Kompatibilitätsproblemen mit Intel scheitern könnte.

Intel hat hingegen die 4-fach superskalar noch nicht ausgereizt bzw. dürfte eher deren Nutzung per SMT (HT) im Blick haben. Auch bei der SSE hat Intel ja Erfahrung mit SMT / HT.

Wenn AMD aber bei Bulldozer das Design entschlackt (ähnlich zu IBM) und dann Takt gewinnt läßt sich ein IPC-Nachteil gut kompensieren. Wobei IBM mit SMT arbeitet und SUN ebenso, da ist AMD ein Exot und hat eher damit Probleme.
Denn ein Quad-Core mit SMT - wie bei Intel geplant - hat gute Performance ohne bei der TDP groß nachzulegen. Ein echter Okta-Core darf bei eine 125 W TDP Socket nur ca. 12-13 W je Core benötigen. Das riecht eher nach 32nm Fertigung, während Intel per SMT und 45nm dies schon heute packt.
 
Viel Gesabbel ohne Inhalt.(keinerlei Begründung außer die derzeitge Situation) Trotz Verwendung des Konjunktivs.
Ich hätte es mal nicht so drastisch formuliert .. aber das ursprüngliche Posting bringt echt nix neues ... an diese Stelle:

Bitte haltet diesen Thread sauber ;-)

Wenn jemand was liest, was AMD planen könnte um die IPC zu verbessern, dann sehe ich ein Posting darüber gerne :)
Ansonsten braucht man nicht darüber zu diskutieren, ob AMD die IPC verbessern muss .. das ist glasklar und auch schon angekündigt, siehe Folien vom Analyst-Day: http://www.planet3dnow.de/vbulletin/showthread.php?p=3305288#post3305288

Vielleicht graben sie auch das ursprüngliche K9 Design aus ... 8fach superskalar klingt zwar gigantomanisch, aber das würde nur zu gut zu "Bulldozer" passen^^
Aber das erwähn ich hier auch nicht zum ersten Mal, man möge es mir verzeihen ;-)

Hintergrund, wer sich nicht mehr erinnert:
http://www.theinquirer.net/en/inquirer/news/2005/11/03/amds-k10-is-delayed-or-dead

Zum Verständnis: Mit K8L ist der jetzige Phenom/Barcelona gemeint ... und Merom ist die mobile Version vom Conroe / Core2 ; mit 2nd generation meint er wohl die 45nm Core2 CPUs. Tja Charlie hatte da wohl recht, er ist schon der Fähigste in der Inquirer Truppe...

ciao

Alex
 
Zuletzt bearbeitet:
Wenn jemand was liest, was AMD planen könnte um die IPC zu verbessern, dann sehe ich ein Posting darüber gerne :)
Ansonsten braucht man nicht darüber zu diskutieren, ob AMD die IPC verbessern muss .. das ist glasklar und auch schon angekündigt, siehe Folien vom Analyst-Day: http://www.planet3dnow.de/vbulletin/showthread.php?p=3305288#post3305288
8 -16 Cores ... da wird AMD bei der TDP bzw. dem max. Takt sich sehr einschränken müssen.

Da ist Intel per 4* phys. Core zzgl. SMT = 8-fach Core in 45nm viel realistischer und die TDP wird passen auch bei Taktraten über 3 GHz.

AMD wirkt bei 8-16 Cores in 45nm unglaubwürdig. Auch geht Mitentwickler für SOI-45nm IBM in Richtung höheren Takt und nur im Nebeneffekt auf bessere Leistung/ Watt.

Aber warten wir mal den verschobenen Analystentag im Jan/Feb 2008 ab.
Angesichts der finnaziellen Lage bei AMD und der Konkurrenz Intel sind vielleicht diesmal realistische Zahlen und Produkte statt Werbe-pdf nötig.
 
Vielleicht graben sie auch das ursprüngliche K9 Design aus ... 8fach superskalar klingt zwar gigantomanisch, aber das würde nur zu gut zu "Bulldozer" passen^^
Aber das erwähn ich hier auch nicht zum ersten Mal, man möge es mir verzeihen ;-)

Hintergrund, wer sich nicht mehr erinnert:
http://www.theinquirer.net/en/inquirer/news/2005/11/03/amds-k10-is-delayed-or-dead

Zum Verständnis: Mit K8L ist der jetzige Phenom/Barcelona gemeint ... und Merom ist die mobile Version vom Conroe / Core2 ; mit 2nd generation meint er wohl die 45nm Core2 CPUs. Tja Charlie hatte da wohl recht, er ist schon der Fähigste in der Inquirer Truppe...

Gabs eigentlich vor dieser Zeit (vor Herbst 2005) solche schönen Analyst-Day Folien von AMD, die codenamen erwähnten und etwas verrieten? Also so wie jetzt die Juli-2007 Folien mit dem Codenamen Bulldozer etc.........Dass man zwischenzeitlich mal an ganz neuen Cores gearbeitet hat, erscheint ja wahrscheinlich, dass es zumindest zunächst nicht erfolgreich war, sieht man am fast unveränderten Kern von Barcelona/Phenom, aber gab es je halb-offizielle Ankündigungen von AMD bzgl. dieser untergegangenen Projekte?

Auf jeden Fall darf man auf das "grounds-up core development" sehr gespannt sein. Das heißt ja nicht weniger, als ein von Grund auf neu entwickelter Kern. Wenn der wirklich so dermaßen von Grund auf neu ist, dann dürfte das völlige Spekulation sein, wie er aussieht. Spannend ist in jedem Falle, dass AMD die single-thread-Performance so dermaßen betont. Hoffen wir mal, dass wir 2009 einen würdigen K7-Nachfolger sehen, der ja immer noch mit allen seinen Anbauten in jedem AMD-Prozessor hockt......

Und sorry, falls das jetzt schon thread-spamming war, aber das musste ich los werden.
 
Gabs eigentlich vor dieser Zeit (vor Herbst 2005) solche schönen Analyst-Day Folien von AMD, die codenamen erwähnten und etwas verrieten?
(...)
Und sorry, falls das jetzt schon thread-spamming war, aber das musste ich los werden.
Na ernstgemeinte Fragen sind natürlich auch i.O., Spam ist eher der letze Beitrag von rkinet, der bringt auch nix neues, und er vergleicht AMD zum xten Mal mit IBM, obwohl das schon öfters gesagt wurde, dass man von den IBM Taktraten (4,7 GHz) überhaupt nicht auf AMD schließen kann, da IBM wieder auf ein in-order Design umgestellt hat.

Naja also zur Frage ... leider gabs da nichts Dahingehendes, das Einzige waren inoff. Gerüchte beim Inquirer.
"Lustig" bzw. eher schlecht ist z.B. die Nachricht über den Entwicklers des "ersten" K10:

http://www.theinquirer.net/en/inquirer/news/2004/06/13/k10-architect-leaves-amd

Da gibts nen link auf seinem Lebenslauf .. und was steht in Selbigem unter "aktuell":
Current: “Architecture Futures” team member, Nehalem Architecture Team. Intel/DEG/DAP/MAP/NAT/AF.
Wenn AMD dann das alte K10 Design ausgräbt und der Nehalem ähnlich ausschaut wirds lustig ^^

ciao

Alex
 
Na ernstgemeinte Fragen sind natürlich auch i.O., Spam ist eher der letze Beitrag von rkinet, der bringt auch nix neues, und er vergleicht AMD zum xten Mal mit IBM, obwohl das schon öfters gesagt wurde, dass man von den IBM Taktraten (4,7 GHz) überhaupt nicht auf AMD schließen kann, da IBM wieder auf ein in-order Design umgestellt hat.
Intel hat eine Wunder Out-of-order Technologie beim Penryn, die trotzdem über 4 GHz hinaus funktioniert ?
Der Design-wechsel soll +100% beim Takt erbringen ?
Und die Schaltzeiten einzelner Transitoren hängen vom übergeordneten Design hab - Nr.5 lebt !
Und ein K10 in 65nm muss langsamer als ein K8 in 90 nm aus der alten Fab30 sein, weil neue Designs aus neuen Fabs einfach langsamer sein müssen ?

Ein reiner Shrink bringt allein durch physikalische Vorteile gut +20%, etwas Feintuning am Transistor kann noch mehr heraus holen.
Die SOI-65nm des K10 müßte bei ca. +35% bis +45% vs. K8 liegen (wg. verbesserter Implemantierung von Ge), was IBM auch so ähnlich umsetzen kann.

Nur bei AMD sackt der Takt deutlich, bei Intel nicht. Wobei Intel das C2D - Designs weitgehend geschrumpft hat und per 45nm einige alte Leckstromprobleme kitten konnte.
Dazu kommen die Penryn aus der begrenzten D1D-Fertigung, die zwar sehr hochwertige Anlagen besitzt, dafür aber nicht Stückzahlen zum Selektieren nach Takt bietet.

Es ist alarmierend, da hier ein verpfuschtes Chipdesign beteiligt ist.
Und AMD hat dies sogar noch nicht einmal rechtzeitig erkannt, erkennen wollen bzw. per Parolen übertüncht. Diese Sackgasse gab es früher bei AMD nicht, aber AMD ist ja nur noch ein Gerippe an Fachkompetenz.
Was bei der hohen Latenzeit des 65nm K8 / Stepping G1 noch wie ein Sonderfall aussieht entwicklelt sich zum AMD-Normalfall - AMD packt selbst Standard-Aufgaben nicht mehr.
Dazu noch keine Stückzahlen am Markt, keine für die Medien zum testen - nicht einmal ES Vorserienmodell.


"Lustig" bzw. eher schlecht ist z.B. die Nachricht über den Entwicklers des "ersten" K10:

http://www.theinquirer.net/en/inquirer/news/2004/06/13/k10-architect-leaves-amd
Die Beschreibung jenes K10 aus 2004 passt nicht zum realen K10 des Jahres 2007.

Das klingt eher nach Post-Bulldozer - also ist der Barcelona doch eher ein K8L ?

Aber 'multithreading' ist genau das, was Intel sich bei seinen Design betrachtet.
 
Zuletzt bearbeitet:
... Naja also zur Frage ... leider gabs da nichts Dahingehendes, das Einzige waren inoff. Gerüchte beim Inquirer.
"Lustig" bzw. eher schlecht ist z.B. die Nachricht über den Entwicklers des "ersten" K10:

http://www.theinquirer.net/en/inquirer/news/2004/06/13/k10-architect-leaves-amd

Da gibts nen link auf seinem Lebenslauf .. und was steht in Selbigem unter "aktuell":
Wenn AMD dann das alte K10 Design ausgräbt und der Nehalem ähnlich ausschaut wirds lustig ^^
Na ja, so wie es aussieht, gehts bei Intel in die Richtung, die eigentlich vor Jahren schon mit DECs EV-8 beschrieben wurde ...

Dank deinem Link zur japanischen PC-Welt, scheint die Nehalem-Plattform in etwa das zu werden, was AMD einstmals in etwa mit "Windund" ausdrücken wollte. Eine schlanke x86-Prozessorarchitektur mit einer sehr schnellen Anbindung an die Peripherie und Speicher (über "Schlank" kann man sich bei dem Nehalem sicherlich streiten).

Intel modifiziert offenbar seine FB-DIMM-Roadmap dahingehend. Bei kleineren Systemen wird FB-DIMM nicht benötigt (-> DDR3 RAM) und auch bei den mittelgrossen Systemen kommt da eine modifizierte Speicheranbindung heraus, die an AMDs 3GMX-Extender erinnern.
Siehe auch: "Intel-Roadmap 2004 bis 2009 mit FB-DIMM2 und DDR3-Extender".

Der Punkt ist, dass Intel offenbar nun Wert auf schnelle Systemanbindung Wert legt und dazu parallel SMT-Technologie nie ganz verbannen wollte (einstmals auch als "HyperThreading" vermarktet). Laut deinem Inquirer-Link wollte der frühe K10-Entwickler auch SMT integrieren.

Ich frage mich eigentlich immer noch, warum der Alpha EV-8 nie in einer anderen Form konsequent von Intel übernommen wurde ... nun ja, jetzt beschreitet Intel den Weg.

MFG Bobo(2007)
 
EV8-Part2-Fig4.gif


Na ja, so wie es aussieht, gehts bei Intel in die Richtung, die eigentlich vor Jahren schon mit DECs EV-8 beschrieben wurde ...

..

Ich frage mich eigentlich immer noch, warum der Alpha EV-8 nie in einer anderen Form konsequent von Intel übernommen wurde ... nun ja, jetzt beschreitet Intel den Weg.
so wie hier: http://www.realworldtech.com/page.cfm?ArticleID=RWT122600000000&p=3
aus: http://www.orthy.de/index.php?option=com_glossary&Itemid=55&func=view&id=100

Wahrscheinlich ist eben auf den ersten Blick verlockender einfach echte Cores mehrfach auf Silicium zu bannen.
Aber die Tücken liegen dann im Detail, wie TDP der ganzen Konstruktion bei vielen physikalischen Cores oder hohe Ansprüche an die CrossBar.
Dafür eher die Chance gewohnte Taktregionen zu erreichen.

Intel macht wohl eine 'Bonsai-Umsetzung' indem einfach 4-fach superskalar und 2-fach SMT beim Nehalem zusammengeführt wird.
Wobei sich die Frage stellt, ob ein (alternativer) 4-fach Core mit je 4-fach SMT überhaupt genügend schnell noch mit Daten zu versorgbar wäre bei Taktraten deutlich jenseits von 3 GHz.

Dazu noch exklusive L2 und ein shared L3, der im Vergleich zum Barcelona auffällig nahe den L2 angebracht wird. Ggf. ist sogar die Latenzzeit variabel, je nachdem wie lange der Transferweg ist. Beim Barcelona ist der L3 recht wild an den Rand des DIEs plaziert worden, was auch nicht sehr taktfreudig wirkt.


Einen Dual-ported Instruction Cache hat sich AMD einmal patentieren lassen und die 'breite' SSE des K10 ähnelt obigen Design. Dafür fehlt aber im K10 die SMT-Fähigkeit.
Es sieht bei AMD also nach viel Stutzarbeit aus.
 
Conroe
http://www.computerbase.de/bild/article/592/7/
Barcelona
http://www.pcgameshardware.de/?menu...id=571820&entity_id=-1&image_id=595061&page=1
"...wild an den Rand des DIEs plaziert worden, was auch nicht sehr taktfreudig wirkt."
Wieso macht es Intel dann ganz genauso? :P
Der Conroe ist um einiges kleiner als der Barcelona.

http://scr3.golem.de/?d=0711/AMD-Spider2&a=56051&s=19
Zudem ist der L3 recht aufwendig in das Design integriert und muss alle 4 Cores zzgl. Crossbar Switch bedienen können. Da können theoretisch 5 Units gleichzeitig Daten vom oder nach den L3 auslagern. Wobei die Steuerung = TLB kompakt irgendwo nahe der 4 L2 sitzen könnte. Zumindest beim Power6 funktioniert dies einwandfrei - http://www.realworldtech.com/page.cfm?ArticleID=RWT101606194731 , aber eben nur für 2 statt 4 Cores.
 
Naja also zur Frage ... leider gabs da nichts Dahingehendes, das Einzige waren inoff. Gerüchte beim Inquirer.

OK, wollte ich nur wissen. D.h. eine Spekulation darüber, dass bulldozer aussehen wird, wie zwischenzeitlich schon mal geplante Projekte bringt einem eigentlich auch nichts, weil es auch zu diesen Projekten keine ernstzunehmenden Infos gibt. Bleibt also das "grounds-up core development" mal einfach so stehen.

"Lustig" bzw. eher schlecht ist z.B. die Nachricht über den Entwicklers des "ersten" K10:

http://www.theinquirer.net/en/inquirer/news/2004/06/13/k10-architect-leaves-amd

Da gibts nen link auf seinem Lebenslauf .. und was steht in Selbigem unter "aktuell":
Wenn AMD dann das alte K10 Design ausgräbt und der Nehalem ähnlich ausschaut wirds lustig ^^

ciao

Alex

Na ja, so viele CPU-Design-Gurus gibts ja nicht. Da sind viele von zwischen den Firmen hin- und hergewechselt. Außerdem wachsen neue Prozessordesign-Ideen auch nicht auf den Bäumen. Eigentlich kann man gelassen abwarten, die Alternativen sind fürs Design nicht so groß IMHO. Man kann mehr Funktionseinheiten parallel in einem Kern betreiben, also die Skalarität erhöhen, oder mehrere Kerne parallel als SMP betreiben, oder eine beliebige Kombination aus beidem. Das Intelsche SMT ist ja eine Mischung aus beidem, weil man der Software dabei ein bisschen die Verantwortung für parallelisierbare Threads aufhalsen will, die dann superskalar abgearbeitet werden sollen. Welches Konzept unter welchen Bedingungen besser aufgeht, muss man halt ausknobeln. Das dritte Konzept, lange Pipeline mit hohem Takt, ist ja letztlich beim P4 nicht aufgegangen, wobei auch das unter anderen Bedingungen durchaus wieder anders aussehen kann.

Intelektuelle Wunder und revolutionär neue Konzepte erwarte ich jedenfalls nicht in nächster Zeit bei der CPU Entwicklung. Es wird wohl alles darauf hinauslaufen, wie breit man sein Design machen will und wie effektiv das dann noch ist bei x86-code.


Aber wer weiß, vielleicht werden wir doch alle noch überrascht. Immerhin war Glew ja auf dem MPF2003 Vertreter des Meinung: "new microarchitectures can improve single thread performance". Wenn Intel in der Beziehung was ganz großes raushaut mit dem Nehalem, kann man nur hoffen, dass AMD sich damals noch ein bisschen was vom know-how ihres Mitarbeiters abgeschaut hat......Aber AMD sagt ja zumindest schon mal, dass sie mit Bulldozer auch hohe single thread performance im Auge hätten. Hatte man dem jetztigen K10 auch mal nachgesagt. Schaun mer mal


Ansonsten bin ich für den komplett hart-verdrahteten x86-Kern mit nicht mehr als 2 Takten Latenz für alle Instruktionen......*buck*
 
Zuletzt bearbeitet:
Wenn Intel in der Beziehung was ganz großes raushaut mit dem Nehalem, kann man nur hoffen, dass AMD sich damals noch ein bisschen was vom know-how ihres Mitarbeiters abgeschaut hat......
"Groß" ist der richtige Ausdruck, hab auf einer Seite einen DIE-Größen Vergleich gesehen, danach ist ein Nehalem Kern (ohne L2/L3 Caches, Interconnects, IMC) Pi*Daumen 1,5 mal so groß wie Penryn .. also da wird einiges an Logik nachgelegt ...

ciao

Alex
 
http://www.custompc.co.uk/news/602511/amd-next-cpu-architecture-will-be-completely-different.html

aus: http://www.theinquirer.net/gb/inquirer/news/2008/04/30/amd-cpu-radical-departure


if I (AMD’s ... Giuseppe Amato) look at the next generation architecture of our CPU, then it will definitely not be, how can I say, comparable with the Phenom. It will look completely different.’

Bulldozer doch mit erhöhter IPC für Single-Thread ?

Aber 'komplett neu' klingt nicht gut.
Intel packt per 4-fach superskalar und sehr schnellen Caches (L1, ab Nehalem auch L2) einen deutlichen IPC-Abstand zu AMD.

Weitgehend unbearbeitet ist die Effektivität der SSE bei eher Single-Thread Belastungen.
Hier wäre 3-fach oder 4-fach paralell nicht schlecht, was aber eher HT-Design bzw. eine shared SSE5 mit 4 -Units und SMT sinvoll machen würde.
Oder gleich die SSE shared für 4-8 Cores und dann massiv parallel (ähnlich den GPUs) anordnen.

Insgesamt läßt obiger Beitrag befürchten, dass sich AMD beim Bulldozer wieder in langatmiges Entwicklungsszenarium stürzt, während Intel Kompromiss-Designs zu sehr guten Erlösen auf den Markt bringt.

Ich bleibe dabei - AMD fehlt SMT und 4-fach superskalar bei den Integer-Units.
Wenn AMD sich an SMT gewöhnen könnte, dann wäre auch eine 4-fach SSE5 mit SMT und brachialer Rechenpower bei Single-Thread machbar.
Selbst bei Multit-Thread müßte eine SMT 4-fach SSE etwas mehr bringen (+25% durch Verwendung zeitweise nicht benötigter Resorcen ? ), als zwei einzelne 2-fache Fließkommaeinheiten ?* 128 Bit.

Wahrscheinlich wird AMD aber stur seinen Kurs weiter verfolgen, während Intel sich per SMT schon einen bequemen Performancevorsprung (Nehalem ca. 25% bis 35% ) geschaffen hat.
 
Mit Sturheit hat das vermutlich weniger zu tun: AMD hat einfach deutlich kleinere Entwicklungs- Ressourcen und Budgets als Intel. Der große Vorsprung mit K8 entstand ganz einfach, weil Intel massiv gepennt hatte (hier kann man mit Fug und Recht auch von Sturheit reden), der Riese ist jedoch aufgewacht. Schau dir doch mal VIA an - sind die auch stur? Ich würde sagen, sie machen einfach mit ihren Ressourcen das, was damit hinzubekommen ist und versuchen einen Nischenmarkt zu besetzen. Das funktioniert immer so lange, bis der Riese diesen auch entdeckt - siehe Transmeta.

Noch etwas: AMD hat es dringend nötig, seine Architektur gründlich zu erneuern, K8 und K10 gehen auf den K7 zurück, also 1999 wenn ich mich recht erinnere. Von 3- auf 4fache Skalarität umzustellen IST übrigens eine radikale Änderung, ebenso die Implementierung von Multi-Threading - wenn dies im ursprünglichen Design nicht vorgesehen war, wie etwa beim P4.
 
Zuletzt bearbeitet:
naja, dringend ist es nicht.

Core2 geht auf Banias zurück und der widerum auf PIII. Und der ist von '98 oder so.

Es kommt immer nur darauf an was, wo und wie verbessert wird/aufgebohrt wird
 
Na ja, die 4-Fache-Superskalarität schlägt jetzt so grosse Wellen auch nicht. Ich glaube da werden grosse Wellen geschlagen, wo keine sind. Lt. SPEC schlägt der 3-Fach-Superskalare K10 den 4-Fach-Superskalaren Core2 ja mehr als deutlich. BD wird eher dünner als breiter werden, wie ich das mitbekommen habe. Ich denke, man wird nicht auf 4-Fach umswitchen, weil es nach AMD-Masstäben zu wenig bringt.
Der Core2 lebt von seinem Cache und seinem sehr guten (Pre-)fetcher, ohne diese ausgeklügelten Techniken, die mit dem PentiumM entstanden, wäre der Core2 nichts. Der Core2 ist weitestgehend immun gegen hohe Speicherlatenzen, das ist seine grosse Stärke. Von der puren Rechenleistung her ist der K10 eher besser als der Core2 und damit auch besser als der Nehalem.
 
Zuletzt bearbeitet:

Das ist doch überhaupt garnichts neues......Genau das hat AMD doch schon auf den technology analyst days erzählt letztes Jahr, so wie der Inq es ja auch schreibt und verlinkt.....
Natürlich kommt eine erhöhte IPC auch für single-thread. Wenn man sich die single-thread Leistung der Intel-Konkurrenz anschaut, dann ist das auch bitter nötig (oder ein entsprechendes Hochtakt-Design, an das sich aber scheinbar seit P4 niemand mehr herantraut....). Nur ein bisschen am alten K7-Kern rumschrauben wird AMD nicht mehr viel helfen, sie müssen was neues raushauen.
Einziges echtes Problem bei Bulldozer ist nur, dass er zu spät kommt......
.
EDIT :
.

Na ja, die 4-Fache-Superskalarität schlägt jetzt so grosse Wellen auch nicht. Ich glaube da werden grosse Wellen geschlagen, wo keine sind. Lt. SPEC schlägt der 3-Fach-Superskalare K10 den 4-Fach-Superskalaren Core2 ja mehr als deutlich. BD wird eher dünner als breiter werden, wie ich das mitbekommen habe. Ich denke, man wird nicht auf 4-Fach umswitchen, weil es nach AMD-Masstäben zu wenig bringt.
Der Core2 lebt von seinem Cache und seinem sehr guten (Pre-)fetcher, ohne diese ausgeklügelten Techniken, die mit dem PentiumM entstanden, wäre der Core2 nichts. Der Core2 ist weitestgehend immun gegen hohe Speicherlatenzen, das ist seine grosse Stärke. Von der puren Rechenleistung her ist der K10 eher besser als der Core2 und damit auch besser als der Nehalem.

Nur Spec_rate, oder? Und da haut die bessere Anbindung durch. Im single-thread Spec sieht der K7ultra=K10 kein Land.....

Damit allen nochmal klar ist: Schaut Euch die Diagramme eines K7 und eines K8/10 mal an, der Kern ist praktisch unverändert, nur halt 64bit. Integerberechnungen und x87-Berechnungen, die in den L1 passen, laufen auf K7 praktisch genauso schnell pro Takt ab, wie auf einem K10!
Dagegen ist von PIII zu Core2 doch einiges dazugekommen......
 
An x87 hat sich nichts geändert seit dem K7, das bestreitet auch keiner. Aber ich bezweifle ernsthaft, dass der BD bei x87 Code schneller sein wird - und so tragisch ist das auch nicht. Auch bei Intel wirds hier eher Rückschritte als Leistungssteigerungen von x87-Code pro Kern geben. Die Prioritäten liegen einfach woanders.
 
Zuletzt bearbeitet:
Den x87er-teil sehe ich selber auch nicht mehr als sooo wichtig an. Schließlich hat MS die unterstützung für x87er unter Vista64 offiziell gekappt und nutzt stattdessen SSE, was auch Sinn macht. Man kann also davon ausgehen das x87er Code in Zukunft immer weniger implementiert wird...

gruß

cumec
 
Und Integer etwa? Wo? Einzig SSE ist im K10 konkurrenzfähig bei gleichem Takt, den AMD aber noch nicht erreicht.....
Das dürfte auch als Damokles-Schwert über dem Bulldozer hängen.

Wenn er nicht taktet, dann ist er sein Entwicklungsgeld nicht wert.

4-fach superskalar kannte schon die Alpha-CPU.
Für x86-64 dürfte aber 4-fach superskalar nur wichtig für SMT sein, da so genügend freie Resourcen für zwei virtuelle CPUs vorhanden sind.

Insgesamt sollte AMD mehr auf Takt und SMT gehen, was dann gedrosselt im Mobilbereich noch mindestens mittlere Performance ergibt.
Es ist wirklich genau zu überlegen, ob man mit CPUs jenseits von 2*2 (SMT / X2) = 4 virtuellen Cores als kleiner Hersteller wie AMD je Stückzahlen im Mobilbereich erreichen kann.
Gepaart mit großzügig eDRAM wäre da schon Marktpräsenz denkbar.

Man könnte sogar das Basisdesign des Alpha EV8 mit 4-fach SMT (siehe unten) als recht ideales Design für Mobilanwendungen betrachten.
Bei Single-Thread oder unsymmetrischer Multi-Thred Belastung würde das Ding abgehen wie ein Rakete.
Bei 2 Thread leicht gedrosselt vs. echtem Dual-Core sein und bei 3-4 Threads gemütlich aber mit Volllast aller Units arbeiten.

AMD kann sich wg. nachlassender Nachfrage für HighEnd Opterone jetzt eher wieder auf Mainstream konzentrieren.
Und beim Opteron auf virtuelle Software-/IT-Designs, die aber auch SMT gut auslasten.

Vielleicht ist Bulldozer ein Design in Anlehnung an den 'Alpha EV8'.
Allerdings hat AMD dazu noch nichts verkündet.
 
Zuletzt bearbeitet:
Für x86-64 dürfte aber 4-fach superskalar nur wichtig für SMT sein, da so genügend freie Resourcen für zwei virtuelle CPUs vorhanden sind.
Du vermixt da 2 Sachen ... Superskalar hat direkt nichts mit SMT zu tun. Die "freien Resourcen", die Du ansprichst, ist das Backend, also die execution units, AMD hat da 6 (3 Int, 3 FP). Gefüttert werden die durch ein 3 µOps pro Takt, prinzipiell und sehr vereinfacht gesehen wäre also noch Luft für 3 mehr µOps. Egal ob das front-end jetzt 3fach oder 4fach ist.

Wenn man jetzt die Superskalarität erhöht, also das Front-End aufbohrt, dann muss man auch beim back-end nachlegen, um im best case alles in einem Rutsch abarbeiten zu können. Blöderweise bringt eine höhere Superskalarität mit steigender Komplexität aber immer weniger, deswegen ist SMT dann quasi ein "Muss", ansonsten ideln die ~12 execution units (beim EV8 ) nur vor sich hin:
If the IPC of our hypothetical EV8 on a specific program is 2.5, that means on average, 5.5 opportunities to execute an Alpha instruction are lost every clock cycle. That is equivalent to at least 10 billion potential instructions lost every second. What simultaneous multithreading (SMT) provides is a relatively straightforward and inexpensive means to recover a portion of these lost instructions and helps close the huge gap between potential and actual instruction throughput. SMT achieves this by giving the EV8 the ability to fetch instructions from one, two or three extra threads (points of execution within a program) and issue them in otherwise wasted instruction slots left by single thread program execution. Research suggests that four way SMT can increase the IPC of an eight issue wide processor like the EV8 from about 2.5 to the range of 4 to 5.5, or roughly double the single threaded throughput [2].
http://www.realworldtech.com/page.cfm?ArticleID=RWT011601000000

Also bitte front-end / back-end unterscheiden :)

Ich träume schon länger davon (spätestens seit P4 / Itanium Zeiten), dass irgendeine CPU Firma sich endlich des alten EV8 Design erbarmt, und die Ansätze dort irgendwie / teilweise implementiert, aber ich denke dass das ein Traum bleibt, auch wenn sich Bulldozer ziemlich "brutal" anhört :)

ciao

Alex

P.S: Danke fürs thread hochholen ^^
 
Zuletzt bearbeitet:
Ich bleibe dabei - AMD fehlt SMT und 4-fach superskalar bei den Integer-Units.
Wenn AMD sich an SMT gewöhnen könnte, dann wäre auch eine 4-fach SSE5 mit SMT und brachialer Rechenpower bei Single-Thread machbar.
Selbst bei Multit-Thread müßte eine SMT 4-fach SSE etwas mehr bringen (+25% durch Verwendung zeitweise nicht benötigter Resorcen ? ), als zwei einzelne 2-fache Fließkommaeinheiten ?* 128 Bit.
Auf welches Marktsegment beziehst du dich?
SMT für den Desktop/Mobile Markt bringt dir in punkto Rechenwerkauslastung erst dann was, wenn die Anwendungen entsprechend mit mehreren Kernen umgehen können. Dieses ist allerdings bei multicore Prozessoren und einer Softwareumgebung die nur mit 2-4 Kernen umgehen kann mehr oder weniger witzlos. Auch das Multitasking entfällt dabei größtenteils als Argument, denn was bringen ach so viele virtuelle Kerne, wenn diese durch dei Software nicht genutzt werden können?
Im Server/Workstation Markt ist der bisherige K10 wiederum sehr gut aufgestellt und schlägt mit weniger Taktfrequenz die 4-fach superskalaren Modelle der Konkurrenz.
Interessant finde ich allerdings die shaderähnliche Vernetzung der SSE Einheiten, allerdings dürfte dafür wiederum einen neuen Befehlssatz nach sich ziehen und ob diese Konstruktion dann abwärtskompatibel ist...?
 
Auf welches Marktsegment beziehst du dich?
SMT für den Desktop/Mobile Markt bringt dir in punkto Rechenwerkauslastung erst dann was, wenn die Anwendungen entsprechend mit mehreren Kernen umgehen können. Dieses ist allerdings bei multicore Prozessoren und einer Softwareumgebung die nur mit 2-4 Kernen umgehen kann mehr oder weniger witzlos. Auch das Multitasking entfällt dabei größtenteils als Argument, denn was bringen ach so viele virtuelle Kerne, wenn diese durch dei Software nicht genutzt werden können?
http://www.theinquirer.net/gb/inquirer/news/2008/04/30/push-software-fit-parallel

Es werden Anstrengungen von AMD, Intel und anderen eingeleitet um beim Computer die Anwendungen deutlich stärker zu parallelisieren.
Die extrene Anwendung 'Suchmaschinen' zeigt ja schon heute, wie hocheffektiv damit gearbeitet werden kann. Beim Client dürfte aber eher Zukunftsanwendungen wie Text-/Bildauswertung davon profitieren.

Für überschaubere Zeiträume und Fertigungstechnologien (45-40-32-22nm) sind aber relativ wenige Core im Mobilbereich und Mainstream-Desktop sinnvoll auslastbar.

Das Design Alpha EV8 - http://emer.org/Family/Joel/Professional/papers/1999-upforum-smt.ppt nutzt viele Units shared und hat daher natürlich Schwächen bei voller Beastung. Dafür können Dual-Thread Situationen zügig bearbeitet wrden und Single-Thread hätte leichte Vorteile bei Integer (ähnlich Intel 4-fach superskalare Pipeline) und deutlichere bei SSE-Anwendungen.

Die Zielgruppe wäre hier Mobilmarkt und Mainstream-Desktop, in der späten Phase noch embedded Designs.

Im Serverbereich wären virtuelle Maschinen mit Bedarf an typ 1-4 virtuellen CPUs ohne Vollast gute Kandidaten.
Die eigentliche CPU könnte dann mehrere solcher 4-fach SMT Designs enthalten.
Schlechter wäre das Design, wenn gleichmäßig viel Rechenleistung und viele CPUs je virtueller Maschine benötigt werden. Hier könnte man aber im Zuge der Shrinks die SMT-Nutzung je physikalischen Core auf 2 bzw. sogar 1 Core zurückfahren und ggf. sogar gezielt Teildeaktivierungen durchführen.

Der aktuelle Ansatz bei AMD ist bezgl. HighEnd sinnvoller, dafür verliert er Effektivität und vor bekommt TDP-Nachteile im mainstream und Mobilbereich.
Der von Intel vorgebrachte Nehalem-Bausastz mit minimal 2 Cores zzgl 2-fach SMT ist im Vergleich zum EV8 Design energetisch ungünstiger, aber trotzdem deutlich günstiger als ein reiner K10 Dual-Core oder Triple-Core. Auch bzgl. Bulldozer sind noch keine Nachteile erkennbar.

Alles hängt natürlich von den Kundenwünschen ab.
Sind 2011 Notebooks unter 4 physikalischen Cores unverkäuflich, dann ist obiges Design Käse.
Streiken die Käufer ab 25 Watt max (CPU incl. GPU) und unter 4h typ. Akkulaufzeit dann verkauft sich ein 4-fach SMT Design ähnlich EV8 'wie heiße Semmel' (*)
Selbst Intel käme ins schwitzen trotz 32nm und Nehalem.

zu (*) - http://www.heise.de/newsticker/Atom-CPU-Nachfrage-ueberrollt-Intel--/meldung/107277
Der Intel 'Atom' läuft extrem gut und überfordert bis Q3'08 die Kapazität bei Intel.
Allerdings sind erst H2'2008 die beiden anderen 45nm Fabs voll in Betrieb.
 
Zuletzt bearbeitet:
Ist jetzt vielleicht ein wenig zu sehr offtopic von mir aber wäre es nicht möglich OS seitig eine virtuelle Umgebung zu schaffen, welche die Programme von den Rechenwerken abkoppelt und die Arbeit auf die einzelnen Kerne verteilt? So dass also den Programme die gesammte Rechenleistung zur Verfügung steht ohne Rücksicht auf die Anzahl an Kernen Rücksicht nehmen zu müssen.
 
Zurück
Oben Unten