Kaveri - der Trinity Nachfolger

Wenn Berlin 2 MiB L2-Cache pro Modul hat, wird das wohl auch für Kaveri gelten.

1_27-Opteron-Roadmap-2014.png

http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1371538033
 
Hoffen wir mal, dass amd schon mehr hat, als ein funktionierendes A0-Sample...wann sind denn sonst die boinc leaks im verhältnis zum lauch-zeitpunkt aufgetaucht? Taugt das als indikator?
 
Zuletzt bearbeitet:
was dann als starkes Indiz dafür gilt, dass der ominösen Die-Shot (wie du schon sagst) kein Steamroller ist.
War wohl schon zu spät, als ich diese Zeile verfasste; da gehören mindestens zwei Fragezeichen dahinter, wenn nicht sogar drei ;)
Die Kombination aus 2 MB Cache (nicht korrekt angezeigt?) und 4 Threads lässt noch alle Möglichkeiten offen: 2 Module und damit 2 * 2 Threads, oder eben 1 Modul (teildeaktiviertes ES?) mit 1 * 4 Threads.
 
Also wenn man jetzt alles extrem positiv interpretieren will, könnte man sagen, dass AMD deshalb nur noch einen 2 Modul-Kaveri bringt, und eben keinen 3 Moduler, weil man schon mit 2 Modulen (und somit 8 Threads) konkurrenzfähig ist *chatt*
 
Hab ich gesehen, aber neu ist da nichts. Halt ne nette Zusammenfassung.
 
Bei CB seht aber schon etwas Mist in dem Artikel:
Wie AMD bereits im August 2012 enthüllt hatte, geht der Hersteller dabei einen Schritt weg von geteilten Ressourcen in Richtung einer stärkeren Single-Thread-Leistung – letztere gilt als einer der großen Schwachpunkte von Bulldozer.
Dank CMT skaliert ja nicht nur die Single Thread Performance, sonder auch Multithreaded wird SR fast genauso viel (~80% davon) zulegen ;D .

Diese soll insgesamt (CPU + GPU) unter 240 mm² liegen und damit etwas kleiner als eine APU auf Bulldozer-Basis ausfallen. Intels „Haswell“ mit vier Kernen und dem Vollausbau der integrierten Grafikeinheit „Iris Pro“ alias GT3e soll hingegen auf über 260 mm² kommen. Mit der weit verbreiteten GT2-Grafik fällt ein „Haswell“-Quad-Core-Chip mit 177 mm² aber wiederum erheblich kleiner aus.
Es wird nicht erwähnt, dass Haswell auf 22nm setzt, sondern pauschal eine Größe raus gehauen....
 
Es wird nicht erwähnt, dass Haswell auf 22nm setzt, sondern pauschal eine Größe raus gehauen....
Das fände ich noch ok, aber es sollte dann auch die Grafikleistung der GT2 erwähnt werden. Die liegt irgendwo auf aktuellem Trinity-A8 Niveau .. glaube jetzt nicht, dass Kaveri mit den 512 GCN-Shader langsamer als ein aktueller A10 wird ...

Sprich: Kleineres Die ja, aber dafür halt auch weniger Leistung, der typische Trade-Off. Das sollte man bei "aber wiederum erheblich" schon erwähnen ;-)
 
Selbst wenn Kaveri im Vergleich zu Richland deutlich zulegen würde, für AMD wird die Lage in 1 Jahr wohl kaum besser als aktuell sein, wie soll das möglich sein wenn Intel fast den Gesamten Markt in der Hand hat? Die OEM Hersteller haben irgendwie doch keine lust auf AMD, das hat man bereits bei Trinity gesehen oder seit kurzem bei Kabini.
 
Selbst wenn Kaveri im Vergleich zu Richland deutlich zulegen würde, für AMD wird die Lage in 1 Jahr wohl kaum besser als aktuell sein, wie soll das möglich sein wenn Intel fast den Gesamten Markt in der Hand hat?
Einfache Antwort: Spielekonsoleneinfluß. Da hat Intel nichts zu melden und angeblich können die Dinger auch schon HSA. Falls das stimmt und Spiele dafür programmiert werden sollten, stünde man mit nem Kaveri sicherlich gut da.
Ansonsten halt das übliche: Konkurrenz über den Preis ...
 
Das Konsolen Geschäft ist für AMD Top, das ist klar.
Aber was ist mit dem Rest? Desktop, Mobile & Server Markt, gerade der Mobile Markt ist sehr wichtig und hier gibt es fast immer nur Intel zur Auswahl.

Desktop 25%
Mobile 15%
Server 5%

Sieht nicht so gut aus für AMD, was bringen im Desktop Markt 25% wenn man große DIEs zu billig Preisen anbieten muss?
Das Server Geschäft ist sowieso tot, 5% ist keine Rede wert, im oberen Bereich hat AMD einfach nichts mehr zu melden.
 
Zuletzt bearbeitet:
Naja, wie sind hier im Kaveri-Thread und da ist ne billige AMD APU schon jetzt bei den Spielen vor ner Intel CPU, auch wenn intel da mit HSW gut nachgelegt hat.

Ist dann wiederum nur die Frage, wie wichtig Spiele im Mobilbereich sind ...

Servermarkt:
Solange AMD da nicht mehr viel Geld reinsteckt und damit verbrennt, rechnet sich das auch. Jetzt noch ne Orochi Rev. D mit irgendwelchen Verbesserungen im billigen 32nm Prozess sollte ok sein. Nettes Update, nicht high-end, aber ein Stückchen besser und läuft garantiert. Mit der Strategie bin ich zufrieden.

Lieber kleine Schritten die funktionieren und auch nicht viel kosten. Das dürfte neben HSA die Zukunft sein.

Aja und im Serverbereich natürlich noch ARM+Seamicro. Könnte sein, dass Intels Dickschiff-CPUs langfristig in die Ecke von Itanium/Oracle/IBM gedrängt werden, d.h. nur für Spezialfälle. Für 08/15-Webserver dagegen könnte sich was Billiges von ARM durchsetzen.

Frage ist am Ende auch was einfacher ist: Viele kleine ARM-Server zu verwalten oder nen dicken Intel-Server zu virtualisieren. Aber am Ende wird das wohl die Kostenfrage die Wichtigste sein ...

Da sind wir dann aber schon seehr OT.
 
Zum Thema HPC empfehle ich mal diesen Artikel:
http://www.hpcwire.com/hpcwire/2013-07-10/amd_taken_to_task_on_hpc_investment.html
Hatte ich schon im Prognose Thread gepostet.
.
EDIT :
.

Frage ist am Ende auch was einfacher ist: Viele kleine ARM-Server zu verwalten oder nen dicken Intel-Server zu virtualisieren.
Ist wohl eher die Frage, ob große Datenmengen eher von vielen kleinen ARM oder X86 APUs verarbeitet werden können oder von einem dickem Numbercruncher.
Mal sehn wie Kaveri bei OpenCL bzw. mit Huma Apps abschneidet.
 
Das Server Geschäft ist sowieso tot, 5% ist keine Rede wert, im oberen Bereich hat AMD einfach nichts mehr zu melden.
Mit HSA/APUs und entsprechender fabric sollte sich abseits des klassischen x86 Server Geschäfts noch einiges an Potenzial verwirklichen lassen. Die im Artikel angedeuteten Regierungsorganisationen mit drei Buchstaben scheinen da wohl immer Gefallen dran zu finden. Todgeweihte leben länger ;)
 
APUs im Server sind sinnvoll wenn auf einem Server Mediadaten verarbeitet werden müssen.
Flickr ist so ein Beispiel dafür. Tausende Fotos skalieren, bearbeiten oder was auch immer, da ist x86 nicht effizient.

Bedeutet letztlich, AMD wird sich im Serverbusiness spezialisieren. Im Bereich Wald- und Wiesenserver wird man Intel nicht das Wasser abgraben, dafür fehlen Leistung und Vertriebsstruktur.
 
Zuletzt bearbeitet:
Als kleine Anmerkung zum Speicherdurchsatz der kommenden Kaveri APUs:
Ich hatte ja vor einiger Zeit befürchtet, dass der Verbleib auf einem Dual Channel DDR3 Speicherinterface zu einem starken Flaschenhals bei Kaveri würde, also insbesondere verschenkte Performance bei 3D-Applikationen bedeuten könnte. Ein Blick auf den Grafikkarten-Test von ht4u.de, September 2012 lässt mich meine ursprüngliche Einschätzung ein Stück weit moderieren. Im Vergleich zeigt die GDDR5 Edition der HD 7750 etwa 50% bis 60% mehr Leistung als ihre gleichgetaktete DDR3 Variante, sowohl in der 1920x1080 Auflösung, als auch in der niedrigeren 1650x1050 Auflösung. Die mit 900MHz getaktete GDDR5-Variante der HD7750 liegt etwa 60% bis 70% und im Schnitt gut 65% höher als das DDR3 Vergleichsmodell. Für GPGPU Aufgaben sind diese Performance-Unterschiede deutlich geringer, grob zwischen 0% (Hashing) und 31% (LuxRender), im Schnitt bei 8% unter gleichem GPU-Takt und 18% für das 900MHz GDDR Modell.
Unter der Annahme/Prämisse, dass eine (vollkommen) lineare Skalierung zwischen Performance und Speicherdurchsatz vorliegt, dürfte die Kombination von DDR3-2400 (oder höher) und etwaigen Optimierungen in der Nutzung der Speicherbandbreite vermeintliche Flaschenhälse weitgehend reduzieren. Eine Erhöhung des möglichen Speicherdurchsatzes um 50% (DDR3-2400 gegenüber DDR3-1600) könnte ausreichen, um den vermeintlichen Flaschenhals zu minimieren.

Als Anhaltspunkt mal eine Tabelle vergleichbarer Grafikkarten und eines imaginären *Kaveri-Modells (Schätzung aus veröffentlichten Angaben, rein auf den GPU-Part bezogen), und dem Performance-Index von HT4U, aus Gründen der Vergleichbarkeit in der Auflösung 1920x1080 mit Kantenglättung, abgeglichen mit dem Test der HD 7790
Code:
[U]Modell[/U]               [U]Speicheranbindung[/U]                                           [U]GPU[/U]                               [U]Perf[/U]   [U]Gflop/(GB/s)[/U]
HD 7790	GDDR5 1500 MHz 128 Bit 96,0 GB/s   56,0 GT/s 14 CUs 1000 MHz 1792 Gflops  163%     18,8	
HD 7770	GDDR5 1125 MHz 128 Bit 72,0 GB/s   40,0 GT/s 10 CUs 1000 MHz 1280 Gflops  129%     17,7	
HD 7750	GDDR5 1125 MHz 128 Bit 72,0 GB/s   28,8 GT/s   8 CUs   900 MHz   922 Gflops  110%     12,8	
HD 7750	GDDR5 1125 MHz 128 Bit 72,0 GB/s   25,6 GT/s   8 CUs   800 MHz   819 Gflops  100%     11,4
HD 7750	DDR3     800 MHz   64 Bit 25,6 GB/s   25,6 GT/s   8 CUs   800 MHz   819 Gflops    65%     32,0
*Kaveri    DDR3   1200 MHz   64 Bit 38,4 GB/s   28,8 GT/s   8 CUs   900 MHz   922 Gflops    - - -       24,0
Angemerkt sei noch, dass selbst die 72 GB/s schnelle GDDR5 Speicheranbindung der HD7750 und sogar der HD7770 noch ausreichend Luft für eine leistungsstärkere GPU lassen dürfte: Die HD 7790 hat grob etwa die doppelte Rohleistung einer HD 7750, aber eine "nur" 33% leistungsfähigere Speicheranbindung wurde für nötig erachtet. Den "Flaschenhals" der Speicheranbindung könnte man so (d.h. ceteris paribus) für 512 GCN Shader mit 800 MHz bis 900 MHz Takt im Bereich von grob 40 GB/s bis 50 GB/s ansetzen, also rein auf 3D-Applikationen/Spiele bezogen; oder anders: Werte von schätzungsweise deutlich mehr als 20 Gflops Rechenleistung je GB/s Speicherdurchsatz scheinen die Leistung der GCN Architektur einzuengen.
 
Zuletzt bearbeitet:
Danke für die Zusammenstellung!
Damit würde man wohl zumindest wieder über der GT3e liegen. Klingt doch ganz gut.
Allerdings wäre ein (erfolgreiches) "Prestige-Projekt" mal wieder wünschenswert. Insofern wäre es schon nett, wenn vielleicht doch irgendwie eine GDDR5-Version zur Verfügung stünde.
 
Wäre eine feine Sache, aber ob der technische Aufwand (Speichercontroller der APU, BIOS, Validierung, Absprache mit Board-Partner, Abwärtskompatibilität, etc.) und die offenen Fragen den Nutzen rechtfertigt? Ich meine, selbst wenn ein Unternehmen GDDR5 als Speicherriegel anbietet, zöge die Unterstützung wieder einen ganzen Rattenschwanz nach sich. Ich schätze, dass es für die Beteiligten bei AMD auch ohne derartige "Spielereien" schon schwierig genug ist, diese APU wie angekündigt auf den Markt zu bringen. Technisch einfacher dürfte es sein, noch höhere RAM-Takte (und entsprechende Timings) zu unterstützen, auch wenn die Modul-Preise ab DDR3-2400 aufwärts regelrecht explodieren.
 
Vor allem für den Mobilbereich wäre das mMn interessant. Denn da ermöglicht es maximale Grafik-Performance ohne zusätzliche GPU. Im Desktop-Bereich machen die sehr schnellen integrierten GPUs eh wenig Sinn, weil da jeder für ein paar Euros eine diskrete GPU einbauen kann.
Bei einer GDDR5-Notebook-Lösung kommt es dann auch nicht so sehr darauf an, ob man den Speicher aufrüsten kann. 8 GB rein und fein.
Dafür könnte man da möglicherweise durch eine etwas höhere TDP noch etwas mehr aus der APU rausholen. Aber das ist wohl "wünsch-Dir-was", nicht unbedingt etwas, das real auf den Markt kommt.
 
APUs im Server sind sinnvoll wenn auf einem Server Mediadaten verarbeitet werden müssen.
APUs beschleunigen auch Code der nichts mit Mediadaten zu tun hat, z.B. Java wird bei Datenbankzugriffen durch HSA Code enorm beschleunigt.
http://techreport.com/news/23673/amd-teams-with-oracle-on-java-acceleration-qualcomm-on-hsa
Und Java ist auf Servern keine Nische.
http://www.extremetech.com/computin...i-will-fully-share-memory-between-cpu-and-gpu
AMD gave two examples of programs and situations where the heterogeneous architecture can improve performance — and how shared memory can push performance even further. The first example involved face detection algorithms.
[...]
By allowing the individual parts to play to their strengths, the company estimates 2.5 times the performance and up to a 40% reduction in power usage versus running the algorithm on either the CPU or GPU only. AMD achieved the (best) numbers by using the GPU for the first three stages and the CPU for the remaining stages (where it was more efficient). It was further made possible because they did not have to worry about copying the data to/from the CPU and GPU for processing which would have slowed down performance too much for HSA to be beneficial.

Auch dieser Artikel ist Interessant wie man aus AMDs Llano 20% mehr performance raus holt nur indem man den Code anpasst:
http://www.extremetech.com/computin...md-cpu-performance-by-20-without-overclocking
To achieve the 20% boost, the researchers reduce the CPU to a fetch/decode unit, and the GPU becomes the primary computation unit. This works out well because CPUs are generally very strong at fetching data from memory, and GPUs are essentially just monstrous floating point units. In practice, this means the CPU is focused on working out what data the GPU needs (pre-fetching), the GPU’s pipes stay full, and a 20% performance boost arises.
 
Auch dieser Artikel ist Interessant wie man aus AMDs Llano 20% mehr performance raus holt nur indem man den Code anpasst:
http://www.extremetech.com/computin...md-cpu-performance-by-20-without-overclocking

Die Nutzung der CPU als "Coprozessor" für Prefetching Opterationen, das hatten wir doch schon mal [URL="http://news.ncsu.edu/releases/wmszhougpucpu/"]als Pressemitteilung [/URL] und als Research-Paper , übrigens:

Updated @ 17:54: The co-author of the paper, Huiyang Zhou, was kind enough to send us the research paper. It seems production silicon wasn’t actually used; instead, the software tweaks were carried out a simulated future AMD APU with shared L3 cache (probably Trinity). It’s also worth noting that AMD sponsored and co-authored this paper.

Updated @ 04:11 Some further clarification: Basically, the research paper is a bit cryptic. It seems the engineers wrote some real code, but executed it on a simulated AMD CPU with L3 cache (i.e. probably Trinity). It does seem like their working is correct. In other words, this is still a good example of the speed-ups that heterogeneous systems will bring… in a year or two.
 
Wichtig erscheint mir, dass in den Konsolen die gleiche Technik verwendet und dadurch HSA massiv genutzt wird. Davon sollten doch auch für Kaveri entsprechende Tools, Compiler und Libs profitieren.
Wir haben ja schon oft genug erlebt, dass die tollste Technik nichts nützt, wenn es keine Software dafür gibt.
 
Die Updates sind nicht korrekt. Die CPUs mit L3 Cache in dem Research Paper sind Intel CPUs der Sandy Bridge Bauart. Auch diese können auf diese Weise beschleunigt werden.
 
Zurück
Oben Unten