News AMD präsentiert Steamroller-Details, der 3. Generation der Bulldozer-Architektur auf der Hotchips-Konferenz: +30% IPC?

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.645
Renomée
2.254
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
<div class="newsfloatleft"><a href="link"><img src="http://www.planet3dnow.de/photoplog/images/54308/1_AMD-Logo.png" border="0"></a></div>Bereits vor längerer Zeit sickerten einige kleine Details zur Steamroller-Architektur durch. So erfuhr man z.B. von einer verbesserten Divisions-Einheit, über die wir <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1330556976">hier</a> berichteten. Außerdem gab es ein starkes Gerücht, dass durch die Fachzeitschrift c't letztes Jahr in die Welt gesetzt wurde, wonach die 3. Bulldozer-Generation ein geteiltes Front-End bekommen sollte. Dies wurde jetzt teilweise &ndash; für die Dekoder &ndash; bestätigt:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21270&w=l"></center>

Wie man sieht gibt es weiterhin einen gemeinsamen Fetch-Schritt am Pipeline-Anfang, was bedeutet, dass auch weiterhin ein gemeinsamer Instruktions-Cache genutzt wird. Selbiger wird zusätzlich noch vergrößert. Leider gibt AMD noch keine Größe an, aber die nächste 2er-Potenz nach den aktuellen 64 kB würden 128 kB bedeuten. Immerhin prognostiziert AMD schon einmal 30% weniger L1I-Cache-Fehlschläge bei Datenbank-Anwendungen, die wohl für diesen Fall eine Art schlimmstes anzunehmendes Szenario sind.

Zusätzlich wurde die Dispatch-Bandbreite pro Thread noch um 25% erweitert und die Anzahl der falsch vorhergesagten Sprünge um 20% reduziert. Unter dem Strich soll somit eine Steigerung von +30% Ops pro Cycle herauskommen. Geht man großzügigerweise von einem x86 zu µOp-Verhältnis von 1:1 aus, könnte man im (aller-)besten Fall dann auch von einer IPC Steigerung um diesen Betrag ausgehen. AMD gibt an, diese Steigerung bei einem Applikationsmix aus "digital media", "productivity" und Spielen berechnet zu haben.

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21271&w=l"></center>

Auf der zweiten Folie gibt AMD bekannt, die Speicheroperationen des L1-Caches in bedeutender Weise verbessert zu haben. Das hört sich nach viel an, im besten Fall könnte AMD das Design vielleicht sogar von Write-Through auf Write-Back umgestellt haben, denkbar ist aber auch "nur" eine deutliche Vergrößerung des Write-Combining-Buffers, der z.Zt. nur 4 kB groß ist und für beide Integer-Cluster zuständig ist. Weitere 5-10% Plus gibt es durch einen verbesserten Scheduler. Außerdem nennt AMD unter den Mikroarchitektur-Verbesserungen zum Stromverbrauch noch Optimierungen für Schleifen. Das klingt stark nach einem Loop-Puffer, wie ihn auch schon Jaguar bekommen wird. Worüber in unserem<a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1346188254"> Jaguar-Artikel</a> mehr zu erfahren ist.

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21272&w=l"></center>

Auffällig an diesem Bild ist, dass nur eine einzige MMX-Pipeline in der FPU zu sehen ist. Aktuell hat Bulldozer noch zwei MMX-Pipelines. Anscheinend wurde die vierte Pipeline gestrichen, auf der Folie heißt es auch euphemistisch "stream-lined". Möglicherweise ist damit aber zumindest teilweise auch die kompaktere Bauweise gemeint, denn AMD gibt an, durch Verwendung von maschinellen Bibliotheken 30% an Fläche und Stromverbrauch einsparen zu können:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21310&w=o"></center>
<b>Edit 29.08.2012:</b> Laut Informationen von <a href="http://www.anandtech.com/show/6201/amd-details-its-3rd-gen-steamroller-architecture/2" target="b">Anandtech</a> handelt es sich bei obigen Schaubild nur um eine Demonstration des Möglichen, Steamroller bekäme dagegen noch eine hand-entworfene FPU.

<b>Fazit</b>
Es scheint, als ob AMD die bisherigen Flaschenhälse richtig erkannt hätte und Steamroller die leidigen Probleme der Bulldozer-Architektur vergessen machen könnte. Der Modul-Ansatz wird durch die getrennte Dekoder-Einheit etwas gelockert, aber durch den gemeinsamen Fetch und L1-Instruktionscache nicht komplett aufgegeben. Zusätzlich wird noch an mehreren Stellen der Stromverbrauch eingeschränkt, sodass es auch mit der maximalen Taktfrequenz höher hinaus gehen sollte. Man darf sicherlich auf den ersten Vertreter mit Steamroller-Kernen, vermutlich die Kaveri-APU gespannt sein.

<b>Links zum Thema:</b><ul><li><a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=407458">Diskussion im Forum</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1330556976">Steamroller (Bulldozer_v3) bekommt eine Radix-8-Dividierer-Einheit</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1346188254">AMD präsentiert Jaguar, den Nachfolger der Bobcat-Architektur auf der Hotchips-Konferenz</a></li></ul></p>
 
...denn AMD gibt an durch Verwendung von maschinellen Bibliotheken 30% an Fläche und Stromverbrauch einsparen zu können...
Lassen wir zu diesem Thema einmal Cliff Maier zu Wort kommen:
The management decided there should be such cross-engineering, which meant we had to stop hand-crafting our CPU designs and switch to an SoC design style. This results in giving up a lot of performance, chip area, and efficiency. The reason DEC Alphas were always much faster than anything else is they designed each transistor by hand. Intel and AMD had always done so at least for the critical parts of the chip. That changed before I left - they started to rely on synthesis tools, automatic place and route tools, etc. (...) I had been in charge of our design flow in the years before I left, and I had tested these tools by asking the companies who sold them to design blocks (adders, multipliers, etc.) using their tools. I let them take as long as they wanted. They always came back to me with designs that were 20% bigger, and 20% slower than our hand-crafted designs, and which suffered from electro-migration and other problems.
Quelle: xbitlabs.com
 
@Spina:
Hab gerade noch editiert, Steamroller bekommt laut anandtech noch die handentworfene FPU.

Desweiteren schreiben sie dort, dass sich die Maschinen-FPU schlechter takten ließe, aber das wäre egal, da die maximal-theoretische Frequenz durch den hohen Stromverbrauch schon früher limitiert werden würde.

Durch die Maschinen-FPU käme man damit dem Optimalpunkt näher. Zwar sinkt die theoretische Maxfrequenz, aber aufgrund des Gewinns durch den niedrigeren Stromverbrauch bleibt unterm Strich dann doch ein Leistungsplus übrig, dazu dann auch noch der niedrigere Flächenverbrauch. Das "20%" bigger ist demnach auf alle Fälle überholt und veraltet.
 
Bei der Größe stimme ich dir zu, dass es da bestimmt Fortschritte gab. Die Frage ist nur bei welcher Methode es weniger Speed Paths gibt.

Da bin ich mir nicht so sicher, ob das automatische Chipdesign in der Hinsicht heute schon der sorgfältigen Ingenieursarbeit überlegen ist.
 
Bei der Größe stimme ich dir zu, dass es da bestimmt Fortschritte gab. Die Frage ist nur bei welcher Methode es weniger Speed Paths gibt.

Da bin ich mir nicht so sicher, ob das automatische Chipdesign in der Hinsicht heute schon der sorgfältigen Ingenieursarbeit überlegen ist.
Ne, aber wie schon oben gesagt: Das beste hochfrequent-Design nützt Dir nichts, wenn der Chip dann 300W verbrät. Die aktuellen BDs mit 3,6 GHz schaffen ja mit ner guten WaKü problemlos über 5 GHz. Aber was hilfts, einem das? Besser wärs, wenn man den Chip mit ~4 GHz betreiben könnte und die SpeedPaths vor 5 GHz begrenzen würden.

Insbesondere aus Multicore-Sicht sind die SpeedPaths wohl sch...egal. Die Opterons takten ja mit noch weniger, und wer weiss wieviel Module es in 22nm pro Die geben wird.
 
Ich denke der Grund für die maschinellen Bibliotheken dürfte sich mit einem Wort zusammenfassen lassen: Execution

Für mich viel wichtiger: Wann kommt denn die FX-Variante? Schafft sie es noch in 2013???
 
Eher nicht. Vishera soll ja dieses Jahr noch kommen, wird aber erst Anfang 2013 richtig im Markt Fuß fassen. Dann wird man ihn ungern gleich wenige Monate später wieder auswerfen. Ich schätze Steamroller auf Anfang bis Mitte 2014. Ist unangenehm (ich hätte auch Steamroller am liebsten schon im Rechner), aber realistisch. Wenn sie es früher schaffen sollten, ließe ich mich gerne eines Besseren belehren.
 
Tja vielen haben halt nicht "erkannt" dass Vishera keine neue CPU ist sondern nix weiteres als ein besseres Stepping !!! Ist weiterhin ein Orochi, nur halt Rev C. Kleine Bugfixsammlung ggü OR-B2.

Die echte 2. Generation des Bulldozers ist/wird Steamroller !

Im Großen und Ganzen ist Vishera auch nur wie der Sprung beim Ontarion von ON-B0 auf ON-C0, etwas mehr Takt, minimale Verbesserungen hier und da und einige Funktionen aktiv die vorher noch deaktiviert waren aber nix "weltbewegendes".

Daher ein Tipp an die AMD-Jünger:
Wartet auf die Dampfwalze oder auf die Raubkatze
 
Zuletzt bearbeitet:
Ich denke der Grund für die maschinellen Bibliotheken dürfte sich mit einem Wort zusammenfassen lassen: Execution

Für mich viel wichtiger: Wann kommt denn die FX-Variante? Schafft sie es noch in 2013???
Die Bibliotheken wurden laut AnandTech zu großen Teilen von der GPU-Sparte geschrieben. Bei Bobcat und Jaguar machen die EDA-Tools ja schon mal keinen schlechten Eindruck. Man erwartet ja höhere Dichten und eine geringere Stromaufnahme, weil die Signallänge abnimmt. Der Preis werden maximale Frequenzen sein und vielleicht weitere Sachen, die im Text noch nicht stehen :P.
http://www.anandtech.com/show/6201/amd-details-its-3rd-gen-steamroller-architecture/2

Laut Roadmap wird Vishera für 2013 das ganze Jahr lang über gelistet.
http://www.3dcenter.org/dateien/abbildungen/AMD-Prozessoren-Roadmap-2013.jpg


@ OBrian

Gibt es eig. ein Vishera Update? Ich meine hier irgendwo gelesen zu haben, dass ein AMD-Mitarbeiter meinte Vishera 2013 wird nicht der selbe sein, wie der 2012 vorgestellt wird. Q4 Steamroller wäre natürlich dennoch deutlich besser gewesen.
 
Lassen wir zu diesem Thema einmal Cliff Maier zu Wort kommen:Quelle: xbitlabs.com

Moment mal, erklärt mir das mal bitte mal...
Wenn Cliff Maier letztes Jahr erzählt hat, dass als er AMD verließ CPUs mit automatisierten Tools designt wurden und das der Grund für die "schlechte Performance" von Bulldozer ist, und jetzt auf der AMD Folie von diesem Jahr steht, dass Bulldozer "hand-drawn" ist, muss dann nicht einer Quatsch erzählen?
Verstehe ich was falsch oder geht es hier nur um die FPU von Bulldozer und nicht das gesamte Design?
 
Laut Roadmap wird Vishera für 2013 das ganze Jahr lang über gelistet.
http://www.3dcenter.org/dateien/abbildungen/AMD-Prozessoren-Roadmap-2013.jpg


@ OBrian
Gibt es eig. ein Vishera Update? Ich meine hier irgendwo gelesen zu haben, dass ein AMD-Mitarbeiter meinte Vishera 2013 wird nicht der selbe sein, wie der 2012 vorgestellt wird. Q4 Steamroller wäre natürlich dennoch deutlich besser gewesen.

Für mich viel wichtiger: Wann kommt denn die FX-Variante? Schafft sie es noch in 2013???
Eher nicht. Vishera soll ja dieses Jahr noch kommen, wird aber erst Anfang 2013 richtig im Markt Fuß fassen. Dann wird man ihn ungern gleich wenige Monate später wieder auswerfen. Ich schätze Steamroller auf Anfang bis Mitte 2014. Ist unangenehm (ich hätte auch Steamroller am liebsten schon im Rechner), aber realistisch. Wenn sie es früher schaffen sollten, ließe ich mich gerne eines Besseren belehren.
Naja, das DIE dürfte schon ein bisschen früher kommen, es gab ja vor Kurzem erst die neue Server-Roadmap:
file.php


Das muss ja wohl der Steamroller werden. Alles andere wär ein Witz. Das steht noch unter 2013, anzunehmen, dass es Q4 wird, denn Vishera und dessen Serverversionen kommt ja gerade erst raus, wie Du schon richtig sagtest.

Die Preisfrage ist nun, ob dieses Server-Die auch noch in nem Sockel FM2/3 Platz hat, ob der Speicherkontroller nicht nur DDR4, sondern auch noch DDR3 kann und/oder ob der "Vishera 2013" Plan überhaupt noch aktuell ist.
 
Moment mal, erklärt mir das mal bitte mal...
Wenn Cliff Maier letztes Jahr erzählt hat, dass als er AMD verließ CPUs mit automatisierten Tools designt wurden und das der Grund für die "schlechte Performance" von Bulldozer ist, und jetzt auf der AMD Folie von diesem Jahr steht, dass Bulldozer "hand-drawn" ist, muss dann nicht einer Quatsch erzählen?
Verstehe ich was falsch oder geht es hier nur um die FPU von Bulldozer und nicht das gesamte Design?
In der Tat, das ist ein offensichtlicher Widerspruch.

Andererseits war das ein Kommentar von Jemanden, der nicht bis zum Ende der Bulldozer-Entwicklung dabei war.

Erst jetzt kommt langsam heraus, was es bedeutete einen "Fusion" - also ein integriertes GPU-CPU-Produkt zu fertigen. Die Transistordesigns für GPUs und CPUs waren 2006 diametral verschieden. Verbesserte man in der Fertigung die CPU-Transistoren, dann wurden die Kenndaten für den GPU-Part nochmals verschlechtert.

Mit 45nm war auf die Schnelle das "Fusion-Konzept" eben nicht mehr zu schaffen Die 32nm Fertigung bei AMD/Globalfoundries versöhnt die verschiedenen Transistordesigns von GPU- und CPU-Fertigung.

Also war die Entwicklungsphase vom Bulldozer (32nm!) auch vermutlich empfindlich gestört welche Transistorbibliotheken genutzt und was dann doch händisch entworfen werden sollte.
Womöglich war das erste Designset von "FixundFertig-Zellenbibliotheken" wirklich grottenschlecht, dass man die Nachteile mit manueller Nachbearbeitung zu kaschieren versuchte.

Nun im Jahr 2012 verkündet AMD mit GlobalFoundries bei der HotChip Conference 2012, dass sie mit "Wunder-Zellbibliotheken" die alten Probleme gefixt haben. Und nun wirklich (ganz ganz ehrlich ;)) doch nur noch automatisierte Design-Tools von Cadence und Co. verwenden wollen.

MFG Bobo(2012)
 
Zuletzt bearbeitet:
...und jetzt auf der AMD Folie von diesem Jahr steht, dass Bulldozer "hand-drawn" ist, muss dann nicht einer Quatsch erzählen?
Andererseits würde es Cliff Maier bestätigen, wenn dadurch eingeräumt wird, dass das jetztige Design der family 15h unnötig viel Fläche belegt.
Eben dies soll nach ihm eine Folge von einigen (älteren) automatischen Utilities für das Chipdesign sein. Das würde deren Verwendung nahelegen.

Außerdem werden solche Utilities schon eine ganze Weile genutzt. Die Zeiten, wo jeder Transitor von Hand platziert wurden, sind längst vorbei.
Dazu sind moderne Mikroprozessoren viel zu komplex geworden. Die Frage ist also in welchem Verhältnis beide Techniken zueinander stehen.

Also ob man wirklich noch viele tausend Stunden Manpower in ein lauffertiges Design steckt, um das letzte Quentchen an Leistung herauszuholen.
Und dazu sagt Cliff Maier; dies will sich AMD finanziell nicht leisten und hat dadurch vorhandenes Potential beim Bulldozer unnötig verschenkt.
 
Nun im Jahr 2012 verkündet AMD mit GlobalFoundries bei der HotChip Conference 2012, dass sie mit "Wunder-Zellbibliotheken" die alten Probleme gefixt haben. Und nun wirklich (ganz ganz ehrlich ;)) doch nur noch automatisierte Design-Tools von Cadence und Co. verwenden wollen.

MFG Bobo(2012)
Auch wenn die "Wunder-Zellbibliotheken" noch nicht zu 100% automatisch funktionieren mag, werden auch diese Tools mit jeder CPU-Generation ausgereifter & besser.

In den letzten Jahren hat man wohl (krampfhaft) dieses Automatischen Tool entwickelt, damit es überhaupt so funktioniert, dass man Hand-Desgin-Arbeit deutlich reduzieren kann. Es wird irgendwann die Zeit kommen, wo es ausgereift & gut & billig & schnell funktioniert. Und wenn dieser Zeitpunkt irgendwann kommt, dann werden sich wahrscheinlich die Entwicklungs-Prioritäten dieses Tools auch geändert. Und zwar, dass man mit diesem Tool CPU immer mehr in Effizienz- oder Performance-Optimiert erstellen kann, sodass es dann keinen Unterschied zu Handerstellten Desgin macht.

So ist zumindestens meine Ansicht.

Interessant wäre es auch zu wissen, ob mit solchen Automatischen Desgins auch die Die-Masken billiger werden. Denn diese Masken für die Die-Herstellung in der Fabrik soll ja auch mit jeder kleineren Fertigungs-Node deutlich teurer werden.
 
Zuletzt bearbeitet:
Die Schwierigkeit dabei ist jedoch, dass diese Utilities nicht bloß die Transistoren platzsparend anzuordnen haben, sondern dabei die Wechselwirkung aller Schaltungen untereinander zu berücksichtigen ist. So haben diese Utilities während der laufenden Berechnung unter anderem Signallaufzeiten zu prognostizieren und insbesondere die Signalqualität im Blick zu behalten. So kann es ein Übersprechen zwischen benachbarten Leiterbahnen geben. Oder das Rauschen überlagt das Signal aufgrund einer ungünstigen Anordnung von Schaltungen. Das muss vermieden werden, um die angestrebten Taktraten erreichen zu können. Und der Rechenaufwand dies vorherzusehen steigt von Chip-Generation zu Generation an, da die Komplexität der Mikroprozessoren stetig zunimmt. Man denke dabei an Moore's Law, welches eine Verdopplung der Transistoren alle zwei Jahre voraussagt. Und die oben genannten Effekte, die sich nachteilig auswirken können, werden mit jedem Schrumpfen der Stukturgröße wahrscheinlicher. Die Integrationsdichte nimmt zu und man rückt weiter an die Grenzen des pyhsikalisch Möglichen heran. Schon heute sind manche Transistoren nur wenige Atomlagen dick. Lange Rede, kurzer Sinn: Die Utilities für das automatische Chipdesign werden zwar immer leistungsfähiger, aber der Rechenaufwand nimmt im gleichen Maße zu. Es braucht riesige Serverfarmen, um diese Aufgabe zu bewältigen. Im Grunde muss ja der gesamte Chip emuliert und dann auf Schwachstellen untersucht werden. Und da ergibt sich eine Art Henne-Ei-Problem. Die Vorgängergeneration von Chips rechnet an dem Design ihrer Nachfolger. Allerdings nimmt natürlich der Trend zu "many-core" Prozesoren diesem Trend etwas den Wind aus den Segeln. Es deutet sich an, dass die einzelnen Rechenwerke in Zukunft wieder einfacher gestrickt sein könnten und die Leistung durch eine schiere Anzahl von ihnen erzielt wird. Siehe Xeon Phi.
 
...
In den letzten Jahren hat man wohl (krampfhaft) dieses Automatischen Tool entwickelt, damit es überhaupt so funktioniert, dass man Hand-Design-Arbeit deutlich reduzieren kann. ...
Ich denke, das da eher der Unterschied von Chipkulturen zutage tritt.

Bei GPUs hat man sich wohl schon recht früh auf EDA-Tools verlassen und das manuelle Transistor-Tweeking zurückgestellt. Der Gewinn dabei war ein schneller Generationenwechsel und massives Anwachsen von (gleichartigen) Funktionseinheiten.

Bei CPUs hingegen ist/war der Generationenwechsel deutlich langsamer, so dass Hand-Tunig mehr Leistung pro Chip und Generation versprach.

Wollen wir mal hoffen, dass AMD nun Vollgas geben kann, ... nach der zweiten Bulldozergeneration Vishera.

MFG Bobo(2012)
 
Die Utilities für das automatische Chipdesign werden zwar immer leistungsfähiger, aber der Rechenaufwand nimmt im gleichen Maße zu.
Du machst da einen Denkfehler. Der Rechenaufwand ist zwar enorm, war aber bisher nicht die Schuld daran, dass die Utilities schlechtere Designs lieferten als die Handgemachten. Das Problem waren die Algorithmen der Utilities, nicht dessen Rechenaufwand. Wenn die Allgorithmen also besser werden, dann werden sie besser, da gibt es kein Aber. Der höhere Rechenaufwand ist nicht das Problem, dafür hat man schließlich die Serverfarmen...
 
Zusammengefasst klingt das doch aber recht passabel. Und der Loop cache geht ja auch schon in die Richtung die wir uns im Spekuforum schon ewig zusammengereimt haben.
Decoderentlastung durch µOp-Buffer, wie auch immer man das Ding nun im Detail nennen mag.
Ein "echter" Trace cache wäre zwar wohl leistungstechnisch effizienter, aber auch Stromfressender und schwerer zu designen.
Dennoch, sehr interessant... wenn das mit +30% IPC tatsächlich im Mittel hinhaut, kommt Steamroller wohl mal in die Spähren die wir dem CMT-Design von Bulldozer ursprünglich angedichtet hatten.
Womöglich ist Steamroller die "fertige" Version, Bulldozer Done Right. - Und der aktuelle doch mehr eine schnell auf den Markt geschobene Prototypversion...

*noahnung*
 
Ein "echter" Trace cache wäre zwar wohl leistungstechnisch effizienter, aber auch Stromfressender und schwerer zu designen.
Naja, vielleicht haben sie ja nen großen Loop-Puffer, quasi ne Mischung aus Intels Loop und µOp-Cache. Mal abwarten :)

Dennoch, sehr interessant... wenn das mit +30% IPC tatsächlich im Mittel hinhaut, kommt Steamroller wohl mal in die Spähren die wir dem CMT-Design von Bulldozer ursprünglich angedichtet hatten.
Na im Mittel bekommt man das sicher nicht. 30% wird sicherlich das Max. sein. Hab gerade im Steamroller Thread gepostet, dass die FPU ja jetzt schon sicherlich recht gut ausgelastet ist und außerdem für 256bit 2 Ops braucht. ALso die bekommt sicherlich keinen so großen Boost. Aber bei INT hoffe ich dann doch auf bis zu +30%.
Womöglich ist Steamroller die "fertige" Version, Bulldozer Done Right. - Und der aktuelle doch mehr eine schnell auf den Markt geschobene Prototypversion...
Jupp wollen wir es hoffen. Sieht auf alle Fälle schon gut aus und schlechter kanns ja nun wirklich nicht mehr werden *lol*
Wenns dann wirklich so kommt können wir BDv1+v2 "Bulltanium" nennen ^^
 
Obwohl dem Itanium oft Unrecht getan wird. Natürlich wird bei der EPIC Architektur im Vergleich zu seinem superskalaren Prozessor dem Compiler viel Arbeit aufgebürdet. Aber dies hat den Vorteil, dass der Prozessor selbst schlank gehalten wird. Viele Aufgaben, wie das Gruppieren der Befehle bei einem out-of-order Design, werden dem Prozessor abgenommen. Der Compiler darf sich dann mit den Abhängigkeiten und so weiter herumschlagen. Man benötigt auch keine aufwendige Sprungvorhersage. Das spart zum einen Funktionseinheiten ein und senkt zugleich die Leistungsaufnahme. Die frei gewordenen Fläche konnte man beim Itanium für größere Caches und andere Aufgaben verwenden. Bei nicht angepasster Feld-Wald-und-Wiesen Software ist dieser Ansatz natürlich veheerend. Da zeigt der Itanium dann eine unterirdische Leistung. Insofern hätte sich Intel die x86-Emulation sparen sollen. Daran haben jedoch viele "Fachleute" ihre Kritik festgemacht, als würde der Itanium wie ein Damoklesschwert über dem Desktop schweben. *buck* Man muss jedoch berücksichtigen, dass der Itanium in seinem üblichen Einsatzfeld nur hochoptimierten Code vorgesetzt bekommt. Und da konnte er im Regefall durchaus glänzen und mit anderen Architekturen mithalten, die im selben Bereich eingesetzt werden. So klein, wie er hingestellt wird, war der Marktanteil des Itanium deswegen gar nicht. Sicher blieben die Verkaufszahlen hinter den Erwartungen von Intel und HP zurück, aber im selben Zeitraum sind andere Architekturen ausgestorben und IBM POWER und Sun SPARC Prozessoren haben sich ebenfalls nicht in gewaltigen Stückzahlen verkauft. Statt dessem haben sich unter dem Verzicht von RAS-Features Cluster aus kostengünstigen x86 Systeme als Alternative durchgesetzt. Die meiste Schelte hat der Itanium wohl nur deswegen bekommen, weil er von Intel stammt. Man denke an den Transmeta Crusoe, der ungefähr zeitgleich mit dem ersten Itanium erschien. Zwar hatte der Crusoe und sein Nachfolger Efficeon ein gänzlich anderes Einsatzgebiet, aber ihre Architektur war der des Itanium nicht ganz unähnlich und x86 Befehle konnten ebenfalls nur in (Software-)Emulation der ISA ausgeführt werden. Da hatte jedoch niemand etwas an dieser neuen Konzeption auszusetzen, obwohl dort fortwährend Leistung verschenkt wird und nicht nur für die Abwärtskompatibilität.
 
Dennoch, sehr interessant... wenn das mit +30% IPC tatsächlich im Mittel hinhaut, kommt Steamroller wohl mal in die Spähren die wir dem CMT-Design von Bulldozer ursprünglich angedichtet hatten.

Na im Mittel bekommt man das sicher nicht. 30% wird sicherlich das Max. sein. Hab gerade im Steamroller Thread gepostet, dass die FPU ja jetzt schon sicherlich recht gut ausgelastet ist und außerdem für 256bit 2 Ops braucht. ALso die bekommt sicherlich keinen so großen Boost. Aber bei INT hoffe ich dann doch auf bis zu +30%.
Lest ihr alle außer Planet3dNow nichts mehr?

+15% Leistung/Watt vs. Piledriver hat AMD in Aussicht gestellt.

http://ht4u.net/forum/index.php/topic,58108
 
Zuletzt bearbeitet:
Ne da haben wir ein Mißverständnis, ich meinte nicht die Itanium-Architektur, sondern explizit den Itanium (1). Der war wirklich schlecht. Erst der zweier, den das hp Team entwarf, war brauchbar.

Der Itanium 1 war quasi nur ein Testchip um die Architektur pauschal testen zu können. Deswgen der Vergleich jetzt zum BDv1.

@CPU-Klaus:
Les mal dort im Thread, das ist bekannt :)
 
dort? Wenn es "dort" (wo immer das auch ist) bekannt ist, warum schreibst du dann hier um den heisen Brei herum, statt direkt auf die 15 Prozent hinzuweisen. Völlig unnötig.
 
dort? Wenn es "dort" (wo immer das auch ist) bekannt ist, warum schreibst du dann hier um den heisen Brei herum, statt direkt auf die 15 Prozent hinzuweisen. Völlig unnötig.
Perf/Watt ist immer ein Durchschnittswert, ich dachte das sei klar dass - wenn ich von +30% max. IPC rede - das nicht das gleiche wie Perf/Watt ist.

Die 15% Perf/Watt beziehen sich auch nur auf den Designvorteil, der Prozessunterschied ist nicht mit eingerechnet, siehe dort:

http://www.planet3dnow.de/vbulletin/showthread.php?p=4657848#post4657848

Also da kann noch viel passieren. Superoptimisten könnten gar von ULK träumen (GF hatte dafür vor einem Jahr Ingenieure gesucht), damit sänke der Stromverbrauch stark wodurch die der Quotient aus Perf/Watt nach oben schösse.

Also in Silizium gegossen ist da noch nichts und somit das letzte Wort auch nicht gesprochen.
 
Zurück
Oben Unten