AMD Kabini APU / Jaguar CPU + Graphics Core Next GPU, 2-4 Kerne, 28nm TSMC, 2013

Vermutlich basieren die Achtkerner der nächsten Playstation auf den Jaguar Kernen.

Will AMD womöglich in die Fußstapfen von IBMs Cell, Suns Niagara gehen? Also ein Low-Power Multicore mit nicht zu fetten Kernen?
Verglichen mit den Teilen ist so ein Jaguar ziemlich fett. Die ersten Niagaras hatten nur 1 FPU für 8 Kerne oder so wenn ich mich recht erinnere, Jaguar hat aber ne volle 128bit FPU die auch AVX kann. Also das ist kein Schmalspurteil.
Wenn man noch ne GPU dranpappt könnte man das Ganze dann als ne Art Cell interpretieren ja, aber die programmierung geht per HSA wohl etwas leichter von der Hand ;-)
 
Athlon-X2. Genau diese Uralt-CPUs von AMD finde ich in den verbleibenden AMD-Desktops...
Normal wenn man die komplette aktuelle Generation streich. ;)

Die Jaguar-basierten Konsolen ergeben nur dann Sinn, wenn sie umfassend von GPGPU-Methoden der GCN-iGPU Gebrauch machen. Ähnliche Möglichkeiten erwarte ich von Kabini und bin vorsichtig optimistisch, dass AMD endlich von seiner Fusion Politik profitiert.
MfG
Mit vernünftigen Multithreading und der Nutzung aktueller Befehlssätze dürften auch einiges gehen. ;)
Bis aber der Desktop Bereich da angekommen ist wird wohl noch das eine oder andere Jahr vergehen....
 
Ist das so? Zumindest konnte bisher keiner x86 anbieten. Im Moment gibt's ja quasi nur 2 ISAs am Massenmarkt, x86 und ARM. Der Rest ist Nischenmarkt. Ich fände so einen Prozessor super. Eigentlich wäre das doch die perfekte Lösung für günstige und sparsame Server.
x86 nicht, da hast du recht. Da gibt es aber eh schon Opteron HE

Aber wie schon oft von mir geschrieben:
Sparsame Server nur um des sparens Willen braucht man nicht.
Server braucht man wenn man etwas besonderes wie zb 16 threads haben will oder wenn man Leistung haben will.
Für Kindergartenserver ist kaum ein Markt da, oder sahst Du Dich schon überschwemmt mit ARM- oder Atom-Servern?
Ich sehe sie nirgends und kaufen kann ich sie noch weniger.
 
Was mir in den Folien zu Jaguar gar nicht gefällt: dass nur von >1,85Ghz "achieved silicon frequenzy" gesprochen wird. Einerseits der niedrige Taktwert, von dem nicht mal erwähnt wird, ob das am Ende nur der Turbo-Takt ist, und dann auch noch, dass es lediglich "achieved...frequenzy" wäre. Hierzu passt der Takt von 1,6Ghz, den angeblich die Jaguars in Playstation4 haben sollen (bzw. damit erscheinen mir die Spekulationen zu PS4 und 8x Jaguar mit 1,6Ghz sehr passend).
 
Zuletzt bearbeitet:
Was mir in den Folien zu Jaguar gar nicht gefällt: dass nur von >1,85Ghz "achieved silicon frequenzy" gesprochen wird. Einerseits der niedrige Taktwert, von dem nicht mal erwähnt wird, ob das am Ende nur der Turbo-Takt ist, und dann auch noch, dass es lediglich "achieved...frequenzy" wäre.
Der Shmoo-Plot ist super, die haben die Frequenz sicherlich nur begrenzt, damit die TDP der Quad-Version im Rahmen bleibt.
Das ist alles in allem schon topp.
 
1,85 GHz Jaguar Quadcore zu 1,75 GHz BC Dualcore; find ich schon OK.
Selbst wenn bei 17W nur noch 1,6GHz für Quadcore drin sein sollten. Grafik hat sich auch verbessert.
 
Danke, sehr interessant! Ich habe es mal in meinem (seit Ewigkeiten) neuen Blogbeitrag verlinkt. ;)
Wie, ein neuer Blog-Eintrag? Glaub ich nicht, ich geh mal nachsehen ;D

Übrigens schreibst du im Artikel von relativen F/V-Angaben im Shmoo-Plot, beziehst dich dann aber auf "0,8 V".
Ah Danke, das mach ich dann mal weg .. die Macht der Gewohnheit ;-)
 
Schon der größere Cache sollte was bringen. Ich habe bisher nirgends was über das Speicherinterface (außer 1866er Unterstützung) gelesen. Bleibt es bei Single-Channel?
 
Schon der größere Cache sollte was bringen. Ich habe bisher nirgends was über das Speicherinterface (außer 1866er Unterstützung) gelesen. Bleibt es bei Single-Channel?
Jo, ausgehend von der Pinanzahl ist da nicht mehr drin, haben wir vor längerem schon mal diskutiert.
 
x86 nicht, da hast du recht. Da gibt es aber eh schon Opteron HE
Ja, nur:

Opteron - 8 Threads - 315 mm²
Jaguar CU - 4 Threads - 26 mm²

Eine hypothetische 8-Kern / 8-Thread CU basierend auf Jaguar käme entsprechend auf 52 mm². Natürlich müsste man noch was für die iNB, grösseres SI usw hinzurechnen. Orochi dürfte da trotzdem noch 3-4 mal so gross und entsprechend teuer in der Herstellung sein. Und die speziell selektierten HE-Modelle machen es auch nicht gerade preiswerter.

Aber wie schon oft von mir geschrieben:
Sparsame Server nur um des sparens Willen braucht man nicht.
Server braucht man wenn man etwas besonderes wie zb 16 threads haben will oder wenn man Leistung haben will.
Na mit einer solchen 8-Kern Jaguar CPU würde man doch 16 Threads bekommen auf einer 2P Plattform. Sogar 32, wenn man auch 4P unterstützt.

Für Kindergartenserver ist kaum ein Markt da
Sehe ich anders. Aber du darfst deine Behauptung gerne mit Zahlen belegen.
 
Gerne gruffi:

Hier die RZs die ich persönlich kenne:
Unser Rechenzentrum hier Kindergartenserver 0 Stück
Bundesrechenzentrum Österreich: Kindergartenserver 0 Stück
Bank Austria Rechenzentrum: Kindergartenserver 0 Stück

Viel mehr kenn' ich jetzt persönlich nicht, was natürlich nicht sehr repräsentativ ist.
Nur komischerweise finde ich auch bei meinem Haus und Hof Provider Hetzner solche Kindergartenserver nicht *noahnung*

Dieser "Trend" muss wohl an allen diesen vorübergegangen sein. *lol*
 
Es sind Kindergartenunternehmen wie Microsoft, Google und Facebook die Intel dazu drängen wollten Atom-Server zu bauen. Intel sah keinen Grund dazu, weil man damit Wasser bei den Xeons abgraben würde.
 
1,85 GHz Jaguar Quadcore zu 1,75 GHz BC Dualcore; find ich schon OK.
Selbst wenn bei 17W nur noch 1,6GHz für Quadcore drin sein sollten. Grafik hat sich auch verbessert.
Aus diesen Plots lassen sich kaum konkrete Frequenzen ablesen. Die >+10% beziehen sich ja erstmal auf Vorteile durch das Design noch ohne den Prozeß. Wo genau im Shmoo-Plot AMD die üblichen Betriebspunkte sieht, geht ja durch die ganzen Normierungen auch verloren. Außerdem zeigen beide Plots nur den unteren bzw. mittleren Bereich. Der Teil, wo die Frequenz auch bei weiterer Spannungszugabe kaum noch steigt, fehlt ja komplett und Jaguar kommt noch nicht mal auf die nominale Spannung von 1, genausowenig wie Brazos die nominale Frequenz 1 erreicht. Die Einordnung fällt also extrem schwer. So kann noch nicht mal einigermaßen plausible Vermutungen aufstellen, worauf das normiert ist. Ablesen kann man aus dem Diagramm nur, daß Jaguar eine etwa 10% höhere normierte Frequenz erreicht, bei gleichzeitig 10% niedrigerer normierter Spannung.

Worauf könnte man normieren? Auf die Frequenz, die sich aus dem nominellen Pipelinedelay des Designs und dem FO4-Delay des Prozesses ergibt? Auf die jeweils angepeilte Releasefrequenz? Auf irgendeine Frequenz, bei der die beiden Designs die gleiche Performance erreichen? In allen Fällen scheint bei Jaguar noch einige Luft nach oben zu existieren, da man die Frequenz 1 bereits bei 0,91 der normierten Spannung erreicht und man noch lange nicht in dem Bereich zu sein scheint, in dem sich der Frequenzzuwachs mit der Spannung deutlich abflacht, während Bobcat bereits Spannung 1 benötigt, um nur auf 93-94% der normierten Frequenz zu kommen (man also mehr als Spannung 1 braucht, um die Normierungsfrequenz zu erreichen). Das wirft wiederum die Frage auf, welche Spannung denn zur Normierung benutzt wurde. Diejenigen, bei der beide Prozesse irgendeine definierte Leakage erreichen? Die nominalen Betriebsspannungen der Foundry für den jeweiligen Prozeß? In dem Zusammenhang sollte man erwähnen, daß AMD praktisch fast alle ihre Produkte von TSMC im Overdrive-Modus betreibt, also deutlich höhere Betriebsspannungen verwendet, als die Foundry nominal angibt (ist für TSMCs 40G 1,0V, Bobcat läuft wohl typischerweise mit 1,3V). Dies ist aber zumindest bei GPUs für 28nm bisher auch so. Also keine Ahnung, was man aus dem Diagramm Konkretes lernen soll. Außer natürlich das Jaguar besser ist als Bobcat. Aber das ist eher die Botschaft, die uns vermittelt werden soll, harte Fakten sehen anders aus.
 
Aber das ist eher die Botschaft, die uns vermittelt werden soll, harte Fakten sehen anders aus.
Jupp. Aber davon abgesehen würde ich als Maximalfrequenz also für die "1" bei der Frequenz so 2,0 Ghz annehmen. Schlicht ergreifend deshalb, weil Bocat die - wie Du schon sagst nicht erreichst - weswegen ich annehmen, dass es gut hinkommt, wenn Bocat dann so bei ~1,9 Ghz bei der Maximalspannung die Puste ausgeht.

Einen Eckpunkt hat man auch noch, die Chips werden meistens in der Mitte des Shmoo-Plots verkauft, eben um die Yields zu erhöhen. Die Mitte wäre dann bei Bobcat so bei 0,8-0,85 also 1,6 Ghz++, käme auch gut hin.

Aber bei der Spannung ... keine Ahnung. Wenn Du jetzt sagst, dass die Bobcats 1,3V hätten, und man den Bereich um 1,6V hernimmt, dann wäre das die Spannung für Jaguar @2,0 GHz.

Aber Du hast schon recht, wir wissen nichts, vielleicht ist die Skala doch bis 2,5 und nicht 2 und AMD verkauft die Bobcats einfach nicht in der Mitte, da sie ja low-end Teile sind.

Von daher ist jede konkrete Spekulation vergebene Liebesmühe.
 
nehme an, dass im Tablet Betrieb mit max. 17W und im Docking Betrieb mit 25W gefahren wird.
Käme auf die genannten 40%.
Quatsch, wäre für Tablet zu viel, aber etwas in der Richtung wird es sein.
http://www.pcworld.com/article/2028787/amd-takes-on-intels-ultrabooks-with-a-new-keyboard-docking-technology.html
Mal gespannt, ob das bei den OEMs ankommt.
Na das ist doch für "Scheiben-PCs", also Tablets, und da gibts doch Temash bei AMD. Steht außerdem auch im Artikel:
The technology is targeted at Windows 8 hybrids with multiple screen sizes and running the company's upcoming chip code-named Temash.
Da gehts eher um 5W und 7W oder so ^^
Viel Spielraum hat man ja nicht, da sich die Kühlung nicht ändert.
 
Da gehts eher um 5W und 7W oder so ^^
Viel Spielraum hat man ja nicht, da sich die Kühlung nicht ändert.

Na, wenn da von Gerätem mit 5 W gesprochen wird handelt es sich wohl um noch eine Stufe kleinere APUs, also die ganz sparsamen APU mit 3,6/5W.
 
Ja, nur:

Opteron - 8 Threads - 315 mm²
Jaguar CU - 4 Threads - 26 mm²

Eine hypothetische 8-Kern / 8-Thread CU basierend auf Jaguar käme entsprechend auf 52 mm².

Ich habe das bei Opterons News schon angemerkt und auch hier sind das ziemlich Äpfel mit Birnen. Die 26mm² (bzw. die 52mm²) sind ja nur die Kerne plus 2MiB (bzw. 4MiB) Cache. Die 315mm² ist der gesamte Prozessor.
Besser passen würde da eher:
Bulldozer-Modul (2 Kerne) inkl 2MiB Cache = 30,9mm²
Bulldozer-Modul ohne Cache = 18mm²
Wären insgesamt 48,9mm² für 4 Threads mit 2MiB Cache, also gleich viele Threads und Cache wie bei den 26mm² von Jaguar. Dividiert durch 1,19 für die Skalierung vopn 32nm auf 28nm (lt. News) 48,9/1,19 = 41 mm²

Also wären die passenderen Vergleichswerte nichte 52mm² vs 315mm² sondern 52mm² vs 2x41mm²=82mm². Das ist natürlich auch nicht 100%ig richtig, aber weniger Äpfel mit Birnen wie anders.

LG
 
Dividiert durch 1,19 für die Skalierung vopn 32nm auf 28nm (lt. News) 48,9/1,19 = 41 mm²
Die News hat ein Update erfahren, das war leider falsch, nämlich der lineare Umrechnungsfaktor. Näheres dort im Diskussionsthread.
Ansonsten verstehe ich nachwievor nicht, was Dein Problem ist. Ja das sind Äpfel / Birnen und? Demnach dürfte man auch keine Intel CPUs mit AMDs vergleichen, das sind schließlich auch Äpfel/Birnen *noahnung*

Also wären die passenderen Vergleichswerte nicht 52mm² vs 315mm²
Das hat doch keiner verglichen?
 
Also wären die passenderen Vergleichswerte nichte 52mm² vs 315mm² sondern 52mm² vs 2x41mm²=82mm². Das ist natürlich auch nicht 100%ig richtig, aber weniger Äpfel mit Birnen wie anders.
Ich würde auch den Uncoore und L3 Cache mit einbeziehen, da dieser ja ebenfalls eine Rolle spielt. Geht man von Zacate aus, der als Dualcore 75 mm² hat und zieht die beiden Bobcat Cores (2x4,6 mm²) und den L2 Cache (2x3 mm²) ab, kommt man auf die Uncore Größe in 40nm =>75-15,2 = 59,2 mm²
Wie der Reduktionsfaktor von 40nm auf 28nm ist weiss ich nicht, doch diesen Wert zu den 52 mm² dazu gezählt und man hat eigentlich den besten Vergleich zu den 315 mm² des Opteron. Allerdings sollte man auch die Integration des FCH (28 mm² in 65nm bei Zacate) berücksichtigen und somit auch beim Opteron den Chipsatz.
 
Opteron schrieb:
Das hat doch keiner verglichen?
Naja, gruffi hat das mehr oder weniger gemacht. Er gibt bei Orochi 315mm² an und bei Jaguar 52mm² für jeweils 8 Threads. Explizit den Vergleich hat er aber nicht beschrieben, das stimmt natürlich. Aber wenn die Zahlen gleich nacheinander stehen, könnte man das so interpretieren.

Bzgl. "meinem Problem" :) :

Ich versuche es anders aufzurollen: Du nimmst (vll. ist das mittlerweile schon geändert, habe es noch nicht nachgelesen) (in der News) als Basis eine gleiche DIE-Fläche her und sagst, dass mit Jaguar Kernen auf 26mm² vier Threads möglich sind. Dann sagst du, dass auf der selben Fläche (was ja deine Basis ist) bei Bulldozer-Kernen nur zwei Threads untergebracht sind. Also könnte man davon ablesen, dass man mit Bulldozer-Kernen für die gleiche Anzahl von Threads doppelt so viel Fläche braucht bzw. man mit Jaguar auf der selben Fläche doppelt so viele Threads unterbringen kann - und diesen eventuell missverständlichen Vergleich wollte ich so nicht stehen lassen, weil das so eben nicht stimmt, wenn man es so interpretieren würde.
4 Bulldozer Threads mit 2MiB Cache in 28nm = 34,6mm² (=48,9mm² mal Skalierungsfaktor 0,707 lt. Newsupdate)
4 Jaguar Threads mit 2MiB Cache in 28nm = 26mm²
34,6*100/26=133%

Also bringt man auf der selben Fläche nicht doppelt soviele Jaguar Kerne Theads unter, also 100% mehr, sondern nur 33% mehr - jeweils inkl. 2MiB Cache.

Ist da wo ein Denk- oder Rechenfehler?
 
Zuletzt bearbeitet:
Ist da wo ein Denk- oder Rechenfehler?
Würde sagen Denkfehler, denn bei Deinem 4 Thread BD-Modul mit 2MB Cache hat das eine Modul keinen L2-Cachezugriff. Da müsstest Du noch extra ne Crossbar zwischenschalten die das geregelt bekommt. Das sowas nicht gerade klein ist, sieht man beim Jaguar-Quad-Modul.
Oder andersherum gesagt: Dein 2MB-BD-Quad ist Theorie, der Jaguar-Quad ist Praxis. Es sollte nicht allzuschwierig sein die BD-Module des Visheras gegen so ein Jaguar-Modul auszutauschen. Alle Einzelteile sind da jeweils lauffähig. Aber bei Deinem Ansatz fehlt noch was um es zum Laufen zu bekommen.

Am Einfachsten wärs wohl, wenn Du je BD-Modul nur 1 MB L2 Cache vorsehen würdest, aber dann müsstest Du die Visheracrossbar auf 8 Ports erhöhen ... wie mans dreht und wendet, man muss noch etwas anpassen.
 
Zurück
Oben Unten