Kaveri - der Trinity Nachfolger

Ist vermutlich gar nicht mal so grob. Komme auf den gleichen Wert. Erscheint mir trotzdem etwas viel, wenn es wirklich "nur" 2 Steamroller Module und 512 GCN SPs sein sollen. Bei linearer Skalierung von 32 auf 28 nm wäre das eigentlich ausreichend Chipfläche für ein weiteres Steamroller Modul oder 2 weitere GCN CUs.
Auf Arbeit hatte ich das Bild vermessen u. mich am Euro orientiert: 246 mm².

Jetzt mit Gimp genau vermessen, unterschiedliches Seitenverhältnis korrigiert: immer noch 246 mm². Das wäre genau die Trinity-Die-Fläche. Aber es ist keiner (z.B. sind hier mehr kleine Bausteine in den Blechlöchern).
 
Das Bild hier eignet sich vielleicht besser zum Messen der Die Größe.
 
@Dresdenboy

Wieso willst du dich denn am Euro orientieren? Die Grösse der Packages ist doch bekannt. PGA ist 40x40 mm, BGA ist 31x31 mm.

Ich habe nochmal das Bild auf CB nachgemessen. Hatte vorher das Bild gemessen, was bbott verlinkt hat. Ich komme trotzdem auf Seitenlängen von ~15,5x16,5 mm, also ~256 mm² Fläche.
 
Also wenn ihr mit zwei verschiedenen Ansätzen und drei verschiedenen Personen auf so ähnliche Flächen kommt, sollte das schon ziemlich gut hinkommen. Die genaue Fläche ist dann ja schon fast nur noch von akademischer Bedeutung :)
 
Sollte der gemeinsame Speicherkontroller (hUMA) nicht kompakter sein als die bisher getrennten Speicherkontroller für CPU und GPU?
 
@gruffi:
Das tat ich wegen geringerer perspektivischer Verzerrung nahe der optischen Achse als bei größeren Objekten.

@LoRDxRaVeN:
Das stimmt natürlich.

Wir können auch einfach beide Dies nebeneinander anschauen u. schon so eine hohe Übereinstimmung der Fläche sehen.
Trinity:
attachment.php

Kaveri:
attachment.php
 
Wer sagt denn, dass das Steamroller-Core nicht wesentlich größer wird, sodass es auch beim Übergang nach 28nm dann kaum kleiner als das Piledriver-Core wäre? Dann größere Caches...ist die Größe des L2 schon sicher? Und: ist denn die Anzahl der 512 GPU-Cores auch so sicher? Aber nachdem andererseits ziemlich gesichert zu sein scheint, dass es keinen GDDR5-Controller gibt, wozu zu viele GPU-Cores? Wird der Ram-Controller damit noch mehr zum Flaschenhals würde ich auf größere L2 oder auch einen zusätzlichen L3 hoffen...
 
Da man die GPU-Kerne gut auslasten kann würde eine größere GPU dazu führen, dass man die dann wohl bei bestehender Bandbreitenbeschränkung niedriger takten und so Strom sparen kann.
 
Wer sagt denn, dass das Steamroller-Core nicht wesentlich größer wird, sodass es auch beim Übergang nach 28nm dann kaum kleiner als das Piledriver-Core wäre? Dann größere Caches...ist die Größe des L2 schon sicher? Und: ist denn die Anzahl der 512 GPU-Cores auch so sicher?

Ziemlich sicher, und seit Feb/März'12 ein alter Hut:

Auf einer Folie vom Financial Analyst Day Februar 2012 geht recht eindeutig die Steigerung des geplanten Ziels auf etwas über 1000 GFLOPs Gesamtrechenleistung (GPU+CPU) hervor, hier die Folie einzeln. In der Fußnote heißt es dazu:
Appendix A
1.
Testing performed by AMD Performance Labs. Calculated compute performance or Theoretical Maximum GFLOPS score for 2013 Kaveri (4C, 8CU) 100w APU, use standard formula of (CPU Cores x freq x 8 FLOPS) + (GPU Cores x freq x 2 FLOPS). The calculated GFLOPS for the 2013 Kaveri (4C, 8CU) 100w APU was 1050. GFLOPs scores for 2011 A-Series “Llano” was 580 and the 2013 A-Series “Trinity” was 819. Scores rounded to the nearest whole number.
2.
Testing performed by AMD Performance Labs. Calculated compute performance or Theoretical Maximum GFLOPS score (use standard formula of CPU Cores x freq x 8 FLOPS) for conventional CPU alone in 2011 was 210 GFLOPs while the calculated GFLOPs for the 1st Gen APU using standard formula (CPU Cores x freq x 8 FLOPS) + (GPU Cores x freq x 2 FLOPS) was 580 or 2.8 times greater compute performance.
Zudem passt auch die Zusammenfassung von 4 GCN Compute Units zu einem Shader-Cluster recht schön ins Bild: So kommt der Shader-Array von Kaveri auf genau 2 Cluster. Bei etwa 900MHz GPU-Takt können die gut 900GFLOPs Rohleistung der GPU eingehalten werden, den Rest steuert die CPU bei.

Aber nachdem andererseits ziemlich gesichert zu sein scheint, dass es keinen GDDR5-Controller gibt, wozu zu viele GPU-Cores? Wird der Ram-Controller damit noch mehr zum Flaschenhals würde ich auf größere L2 oder auch einen zusätzlichen L3 hoffen...
Die Diskussion über die "enge" Speicherbandbreite hatten wir bereits. Hier wird sich zeigen, ob eine Kombination aus effizienterer Nutzung der 2 Speicherkanäle und Unterstützung höher getakteter RAM-Module (z.B. DDR3-2800) nicht als günstigste Lösung herhalten muss.
 
Die GPU an sich verbraucht im Verhältnis zur CPU auf dem Die kaum etwas. Ich tippe auf unter 10 W bei den Desktop-APUs. Eine größere GPU würde bei Spielen vielleicht nicht mehr bringen, aber bei Berechnungen auf der GPU könnte (unteranderem wg. Huma) die Rechenleistung recht gut skalieren.
 
10 Watt? Soviel brauchen schon die 128 GCN-Shader bei Kabini bei ~400-500 MHz. ;) Bei den Desktop-APUs reden wir über ein Vielfaches davon.
 
Und wie soll dann der gesamte A10-5750M mit dreimal so viel SPs und höherem Takt auf 35 W TDP kommen? 2 GCN CUs bei maximal 500 MHz brauchen sicherlich keine 10 W. ;)
 
Der Hardware.fr-Artikel hat ja ein noch verzerrteres Bild, immerhin aber mit Lineal. Das quadratische Package oben hat ein Seitenverhältnis von 1,23:1 dank der persp. Verzerrung.
 
Je nach Bild komme ich auf 254mm², 251mm² und 245mm², wobei ich es irgendwie dämlich finde ein Lineal dazuzulegen und dann so komplett schräg zu fotografieren!
 
Scheduled to show up before the end of this year, AMD's 28nm Kaveri APU will be based on the Steamroller CPU core, Graphics Core Next GPU and will feature support for AMD's HSA that should bring HUMA memory as well as some other features to the Kaveri APU. According to AMD, we should see up to 15 to 20 percent improvement on the CPU side of the chip, while GPU improvements will be even greater thanks to the GCN-based architecture.

http://www.fudzilla.com/home/item/31621-amd-demonstrates-kaveri-apu-at-computex-2013
 
Wenn sich die IPC um 15-20% verbessert bin ich zufrieden :)
Eine APU mit 4,5Ghz Basistakt bei 100W TDP wäre nicht schlecht.

Der Nachfolger wird auch interessant, durch 20nm kann man locker 5Ghz APUs erwarten.
 
Zuletzt bearbeitet:
Von IPC konnte ich nichts lesen. Verbesserung von CPU-"Performance" könnte auch auf andere Dinge als eine reine Steigerung der Leistung pro Takt und Thread hinauslaufen ("Greater Parallelism"), wenn auch nicht exklusiv. Sollte der vor einigen Wochen aufgetauchte Die-Shot den Tatsachen entsprechen, wäre es es durchaus möglich, dass Steamroller erstmal für mehr Threads ausgelegt ist (was eine Steigerung der "IPC" ja nicht unbedingt ausschließt).

Ob der Nachfolger dann gleich in 20nm erscheint, wage ich auch zu bezweifeln. Ich tippe da immer noch in Richtung 28nm fd-SOI.
 
Größere L1 Caches, 2x Decoder, größere TLB Eiinträge, das Frontend wird Leistungsstärker.
Das macht die Integer Cluster Leistungsfähiger, mehr IPC, CMT skaliert dann auch endlich besser.
 
"According to AMD", so so. :] In der Pressekonferenz hat AMD jedenfalls nichts zur erwartenden Performance gesagt. Ich denke eher, das entspringt Fudos Gehirnwindungen.
 
Ich denke primär wird Steamroller seine Leistungsfähigkeit anhand seiner gestiegenen IPC herausholen. Ich erwarte keine Mhz-Updates, könnte mir auch sogar vorstellen das Steamroller paar hundert Mhz je nach Modell weniger als Vorgänger hat, um die Perf/Watt zu verbessern.
 
Ob der Nachfolger dann gleich in 20nm erscheint, wage ich auch zu bezweifeln. Ich tippe da immer noch in Richtung 28nm fd-SOI.
Glaub ich jetzt weniger, 20m war ja schon mal in der Legende auf ner Roadmap eingezeichnet und Intel sollte man auch nicht zu weit enteilen lassen.
Nachdem die 14nm Nodes nur 1 Jahr nach 20nm eingeplant sind sollten sie eher die ins Visier nehmen. Ob Finfet oder FD-SOI ... egal, ich wäre aus FXe Sicht für FD-SOI, wegen des möglichen BackBias.

Pi*Daumen könnte AMD die Rechnung auch so aufgemacht haben, dass ein low-power 14nm Prozess 1 Jahr später fast so gut wäre wie ein extra SHP20-Prozess und die Investitionen das eine Jahr dann nicht wert wären.

Ist aber alles auch ne komplizierte Kostenkalkulation ... Double oder Triple Pattering ist sch.... teuer, Finfets sind kompliziert im Design und ob Globalfoundries die Roadmaps wieder so gut wie bei 28nm einhält, dann Prost Mahlzeit *lol*

Hoffe aber, dass es diesmal besser geht die 20nm und weiter unten kommen ja aus der neuen Fab in NY, da mischt dann auch IBM direkt mit, deshalb läuft das hoffentlich gut ;-)

Große Unbekannte ist aber 14nm FDSOI, davon hörte man eigentlich bisher noch nichts. Obs GF überhaupt anbietet wird *noahnung*
 
"... According to AMD, we should see up to 15 to 20 percent improvement on the CPU side of the chip..."

Das wäre dann ziemlich enttäuschend, weil es dann kaum mehr als +15% wären.
.
EDIT :
.

Glaub ich jetzt weniger, 20m war ja schon mal in der Legende auf ner Roadmap eingezeichnet und Intel sollte man auch nicht zu weit enteilen lassen.
Nachdem die 14nm Nodes nur 1 Jahr nach 20nm eingeplant sind sollten sie eher die ins Visier nehmen...

Mit Kaveri Anfang 2014 würde AMD gerade mal das erste Produkt auf GFs 28nm-Prozess liefern. Da bezweifle ich, dass AMD den 20nm-Prozess anfasst, bevor man überhaupt den 28nm-Prozess einigermaßen kennen gelernt hat, um ihn sinnvoll nutzen zu können. Der 28nm-Prozess wird wenigstens 18 Monate laufen, bevor ein neuer Prozess anstehen dürfte. Bis dahin mag zwar der 14XM noch nicht ganz so weit sein, aber den 20nm wird man dann kaum mehr anfassen. Das wäre verplemperte Kohle, es sei denn, der 20nm-Prozess wäre besonders leistungsfähig (was ich aber ziemlich bezweifeln würde, nachdem was GF selbst über den 14XM im Vergleich zum 20nm erzählt).
 
Zurück
Oben Unten