News AMD präsentiert Jaguar, den Nachfolger der Bobcat-Architektur auf der Hotchips-Konferenz

Opteron

Redaktion
☆☆☆☆☆☆
Mitglied seit
13.08.2002
Beiträge
23.645
Renomée
2.254
  • SIMAP Race
  • Spinhenge ESL
  • BOINC Pentathlon 2012
<div class="newsfloatleft"><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1346188254"><img src="http://www.planet3dnow.de/photoplog/images/54308/1_AMD-Logo.png" border="0"></a></div>Über einige Details, z.B. die AVX-Erweiterung, konnten wir ja bereits in unserer <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1342872950">alten Nachricht vom 21. Juli</a> berichten. Desweiteren haben sich unsere Spekulationen zum Cache-Aufbau und der FPU-Breite bewahrheitet. Erstens bekommt Jaguar wirklich einen 2 MB großen, gemeinsam genutzten L2-Cache, der in vier Kacheln à 512 kB unterteilt ist:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21287&w=l"></center>

Ein einzelner Thread hat dadurch vollen Zugriff auf 2 MB, was v.a. der Single-Thread-Leistung zu Gute kommt. Außerdem ist der L2, ähnlich wie der L3 bei den aktuellen Intel-Prozessoren, inklusive organisiert. Das bedeutet zwar, dass insgesamt 2x32x4= 256kByte der 2 MB verloren gehen, dafür verbessert sich aber die Multi-Thread-Leistung und Inter-Prozess-Kommunikation, da alle Kerne über den gemeinsamen L2 den Status und den Inhalt der restlichen CPU-Kerne abfragen können.

Zweitens bewahrheitete sich auch unsere Spekulation zur FPU. Diese wird wirklich von 64 Bit auf 128 Bit verbreitet. Für FPU-lastige Szenarien kann man also eine ähnliche Verbesserung wie vom K8 auf den K10 erwarten.

Aber schauen wir uns das gute Stück erst einmal im Vergleich zum Bobcat an:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21286&w=l">
<img src="http://www.planet3dnow.de/photoplog/file.php?n=21285&w=l"></center>


Auf den ersten Blick kann man eigentlich erst einmal nur den größeren Bereich der FPU bemerken, der sich schlicht durch die bereits erwähnte Verdoppelung auf 128 Bit erklärt. Interessant ist die Randnotiz am Bildende, dass Jaguar aus nur 3 unterschiedlichen Transistorenzellen-Designs besteht, während Bobcat noch 7 verschiedene Sorten benutzte. Das bedeutet, dass das Design einfacher auf andere Prozesse, z.B. zu Globalfoundries portiert werden könnte.

Für weitere Details ist man dann auf die nächsten AMD-Folien zu den Architektur-Infos angewiesen:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21279&w=l"></center>

Im Folgenden fassen wir alle Informationen zusammen:

<b>1. Front-End</b>

1.1 x86-Dekoder-Einheit:

Ähnlich wie die Intel-Chips seit der Conroe-Generation bekommt Jaguar auch einen Loop-Detection-Buffer spendiert, welcher die bereits dekodierten µOps von sich wiederholenden Schleifen-Instruktionen zwischenspeichert und somit die Dekodier-Einheit entlastet. Als Grund werden Stromspar-Maßnahmen angegeben, da der Dekoder in diesem Falle abgeschaltet werden kann. Aber natürlich bekommt man nebenbei auch einen Leistungsschub, da der kleine 32-Byte-Zwischenspeicher die µOps viel schneller liefern kann als der Dekoder.

1.2. Sonstiges
Wie auch in den anderen Kernabschnitten wurden einige Puffer vergrößert. Im Front-End-Fall ist dabei der Instruktion-Puffer zu nennen, der sich zwischen der Fetch- und Decoder-Einheit befindet. Zusätzlich wurde auch der Prefetcher für den L1-Instruktionscache verbessert.

<b>2. Rechenwerke</b>

2.1 Größere OoO-Puffer
Aus der "Viel-hilft-viel"-Schublade ist diese Verbesserung. AMD vergrößert beim Jaguar einige Puffer, die für die Out-of-Order-Ausführung zuständig sind. Solche Verbesserungen werden bei DIE-Shrinks immer gerne gemacht.

2.2. Integer-Divisor
Wie auch schon Bulldozer (aktiviert erst im Trinity,<a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1334532731"> wir berichteten</a>) oder auch Llano (<a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=395605&garpg=3#content_start">wir berichteten</a>) bekommt auch Jaguar eine Integer-Dividier-Einheit verpasst. Praktischerweise nimmt man einfach die des Llanos.

2.3 Sonstiges
Der Vollständigkeit halber wollen wir hier auch die schon in der Einleitung genannten 128-Bit-Fähigkeit der FPU-Pipelines nennen. 256 Bit AVX-Befehle werden dabei also wie schon aktuell beim Bulldozer in zwei Pakete à 128 Bit aufgeteilt.

<b>3. Load/Store Einheit</b>

Lade- und Speicheroperationen erfuhren ebenfalls ein paar Verbesserungen, so wurde z.B. das Load to Store Forwarding (STLF), das dem ein oder anderen eventuell besser unter Intels Bezeichnung "Memory Disambiguity" bekannt ist, verbessert. Desweiteren wurden auch hier einige Puffer vergrößert und die Logik, welche die nächste µOp aus dem OoO-Puffer bestimmt, wurde verbessert.

<b>Adressierbarkeit</b>
Ein kleines Detail mit eventuell großer Wirkung versteckt sich auf dieser eher unscheinbaren Folie:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21296&w=l"></center>

Neben den bereits bekannten Details zu den unterstützten Befehlssatzerweiterungen sieht man, dass Jaguars Speicherkontroller 40 Bit adressieren. Bisher war das Limit bei 36 Bit, was für einen Prozessor der Jaguar Klasse eigentlich locker ausreicht, da die 36 Bit 64 GB bedeuten. Mit 40 Bit zieht man nun mit dem alten K8 gleich, der ebenfalls 1 Terabyte adressieren konnte. Aktuelle CPUs seit dem K10 adressieren aber bereits 48 Bit. Trotzdem dürfte damit klar sein, dass AMD den Jaguar-Kern mit an Sicherheit grenzender Wahrscheinlichkeit auch im Server-Bereich positionieren wird. 64 GB wären für Tablets, Notebooks, HTPCs und kleine Office-Rechner schließlich auch weiterhin noch genug.

<b>Pipeline-Vergleich</b>

Die Pipeline hat sich im Vergleich zum Bobcat fast nicht geändert, zuerst die Bobcat-Pipeline aus unserem <a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=385065&garpg=3">Bobcat-Artikel</a>:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=10874&w=l"></center>

Und nun die Jaguar-Pipeline:

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21284&w=l"></center>

Wie man sieht gibt es zwei Neuerungen. Erstens gibt es eine zusätzliche Stufe am Ende der Dekodier-Einheit und dann zweitens eine weitere Stufe zum Registerlesen in der FPU. Letzteres ist vermutlich der 128-Bit-Verbreiterung geschuldet. Erster sicherlich aufgrund der Abfrage des Loop-Buffers nötig. Offiziell sind beide Pipelinestufen einer höheren Frequenz geschuldet. Das stimmt natürlich auch, denn wenn man beide Verbesserungen in bereits vorhandene Stufen zwängen hätte müssen, wäre das Design sicherlich nicht ausbalanciert gewesen. Im Endeffekt sind die beiden Zusatzstufen aber schlicht die Ursache der Mikroarchitektur-Verbesserungen und sicherlich kein anfängliches Designziel.

Die L1D-Latenz bleibt weiterhin bei 3 Takten.

<b>Resultat</b>

Lohn der ganzen Mühen ist am Ende eine um >15% gestiegene IPC (1,10 statt 0,95):

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21290&w=l"></center>

Damit bewegt man sich in K10-Regionen, allerdings wird ein Dual- bzw. Quadprozessor mit Jaguar-Kernen deutlich weniger Strom verbrauchen als man es von seinem Phenom II gewohnt ist. Genaue Informationen hierzu, oder zu den Taktraten, gibt es aber nicht. Zu Letzterem gibt es nur die grobe Info, dass sich 10% höhere Takte ggü. Bobcat bewerkstelligen ließen. Aktuell würde das für Jaguars Dual-Core-Version somit um die 1,9 Ghz bedeuten, da der aktuell schnellste Bobcat, <a href="http://www.cpu-world.com/CPUs/Bobcat/AMD-E%20Series%20E2-1800.html" target="b">der E2-1800</a>, mit 1,7 Ghz läuft.


<b>Fazit</b>

Jaguar sieht nach einem runden, gelungenen Design aus. Viele Puffer wurden vergrößert, die FPU-Resourcen verdoppelt, AVX-Unterstützung nachgerüstet, ein schon lange bei Intel üblicher Loop-Cache eingebaut, das Cache-Design überholt und erstmals wird es auch eine Quad-Core-Version geben. Sollte es seitens TSMC keine Produktionsprobleme geben, sollte der Erfolg garantiert sein. Solange Intel seinen Atom-Nachfolger nicht auf dem Markt bringt, könnten die auf Jaguar basierenden APUs den blauen x86-Riesen eventuell sogar dazu zwingen, Sandy- oder Ivy-Bridge ULV-Typen zu verbilligten Konditionen anzubieten, um überhaupt ein Konkurrenzprodukt aufweisen zu können.

<B>Update 30.08.2012:</B>
Gerade erreichte uns noch diese zusammenfassende Folie, die einen schnellen Überblick aller Verbesserungen ermöglicht und uns nun als Abschluss dienen soll:

<center><a href="http://www.planet3dnow.de/photoplog/index.php?n=21326"><img src="http://www.planet3dnow.de/photoplog/images/54308/large/1_AMD-Bobcat-vs-Jaguar.png" border="1" alt="Vergleich: AMD Bobcat vs. Jaguar"></a></center>



Den vollständigen Foliensatz zum Jaguar kann man in unserer <a href="http://www.planet3dnow.de/photoplog/index.php?n=21293">Galerie</a> finden.

<b>Links zum Thema:</b><ul><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1342872950">Bobcat-Nachfolger Jaguar bekommt Unterstützung für AVX</a></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1334532731">Trinity mit aktivierter Integer-Divisions-Einheit: Auch auf FX-Chips reaktivierbar?</a></li></ul>
 
Die News enthält jetzt auch Bilder. :)

Wir hatten vergessen, sie in den öffentlichen Teil zu Verschieben.

Sorry
 
Das klingt alles sehr viel versprechend. Da muss AMD aufpassen, dass die Raubkatzen nicht ihren 17W TDP "Trinity" APUs gefährlich werden.
 
Aber auch erst wieder nächstes Jahr. Das ganze Jahresendgeschäft geht wieder flöten.
 
Das Design ist vor allem AMD untypisch: inklusiver Cache, Loop Buffer.

Erinnert mich irgendwie an den Pentium M, der auch auf einer anderen Architekur aufsetzte. Wird der L2 eigentlich wieder mit half-speed betrieben?
 
Super geschrieben! *great*

Was sind eig. clock macros, wovon Bobcat drei hatte und Jaguar nur noch einen?
 
Super geschrieben! *great*
Danke :)
Was sind eig. clock macros, wovon Bobcat drei hatte und Jaguar nur noch einen?
Ich habs versucht mit " Transistorenzellen-Designs" zu übersetzen. Ein Macro an sich ist ja immer ne Art Block und in dem Fall halt die Art und Weise wie die FAB den Transistor ins Silizium ätzt. Da gibts auch verschiedene Arten von Transistoren (für low power oder hohen Takt), und dann natürlich die Hersteller-eigenen Rezepte. Wie im Text schon erwähnt: Je weniger, desto leichter ist der Hersteller/FAB-Wechsel.

Die Konkurrenz heißt nicht SB oder Ivy sondern ARM. An dessen Energieeffizenz muss man sich messen.
Naja, mit allen ARMs sicher nicht, höchstens mit den QuadCores. Von Handys hat AMD bisher ja noch nichts gesagt, man begnügt sich erstmal mit Tablets. Als AMD positioniert sich da schon noch ne Stufe höher.
 
Den vollständigen Foliensatz zum Jaguar kann man in unserer Galerie finden: klick
 
Na das macht doch schon Mut das zu lesen.
Sieht mir nach einer ordentlichen Evolution der Raubkatzen aus.
AES-Beschleunigung ind en Jaguars... ergibt dann wohl sowas wie ein Netbook mit AES-Totalverschlüsselung? *lach*
Wie auch immer, sehr vielversprechend.
Das mit den reduzierten Makros könnte im Extremfall zwar weniger optimale Transistoren für den jeweiligen Anwendungszweck bedeuten, aber die Portierung sollte deutlich einfacher sein...
Dann brauchen wir noch zu hoffen dass TSMCs 28nm prozess ordentliche Qualität abliefert und es geht rund an der Low-Power x86 Front.
Was ich auf den Folien vermisse sind Aussagen ob Jaguar das Resonant Clock Mesh aus Trinity bekommen wird...!?
 
Zurück
Oben Unten