News Architektur-Infos zu Kaveri und Steamroller geleakt

Nero24

Administrator
Teammitglied
Mitglied seit
01.07.2000
Beiträge
24.066
Renomée
10.445
  • BOINC Pentathlon 2019
  • BOINC Pentathlon 2020
  • BOINC Pentathlon 2018
  • BOINC Pentathlon 2021
Bei <a href="http://www.brightsideofnews.com/news/2013/3/6/analysis-amd-kaveri-apu-and-steamroller-core-architectural-enhancements-unveiled.aspx" target="_blank">Bright Side of News</a> hat man kürzlich offenbar einige interne Dokumente in die Finger bekommen, aus denen man nun nach und nach Infos durchsickern lässt. Vorgestern erst die "<a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1362500242">Kaveri unterstützt GDDR5</a>" Story, und heute geht's weiter.

Angeblich aus einer Vorabversion des <i>BIOS and Kernel Developer's Guide for AMD Family 15h Models 30h-3Fh Processors</i> (derzeit noch nicht öffentlich einsehbar) stammen folgende Design-Details zum für Ende 2013 erwarteten "Bulldozer v3" alias "Steamroller" bzw. der APU mit Codenamen "Kaveri", die eben jene Steamroller-CPU-Kerne nutzen wird:<blockquote><i>- Store to load forwarding optimization
- Dispatch and retire up to 2 stores per cycle
- Improved memfile, from last 3 stores to last 8 stores, and allow tracking of dependent stack operations.
- Load queue (LDQ) size increased to 48, from 44.
- Store queue (STQ) size increased to 32, from 24.
- Increase dispatch bandwidth to 8 INT ops per cycle (4 to each core), from 4 INT ops per cycle (4 to just 1 core). 4 ops per cycle per core remains unchanged.
- Accelerate SYSCALL/SYSRET.
- Increased L2 BTB size from 5K to 10K and from 8 to 16 banks.
- Improved loop prediction.
- Increase PFB from 8 to 16 entries; the 8 additional entries can be used either for prefetch or as a loop buffer.
- Increase snoop tag throughput.
- Change from 4 to 3 FP pipe stages.</i></blockquote>Zudem soll der L1-Instruction-Cache auf 96 KB vergrößert werden. Was bereits <a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1346191456">seit Mitte 2012 bekannt</a> ist und von AMD bereits bestätigt wurde, sind die Änderungen am Front-End. So geht AMD mit Steamroller wieder einen Schritt zurück in Richtung <a href="http://www.planet3dnow.de/vbulletin/showthread.php?t=399114&garpg=24">"echtes" Multi-Core-Layout</a> und spendiert Steamroller wieder einen eigenen Dekoder pro INT-Einheit. Derzeit werden bei Bulldozer und Piledriver die "Kerne" von einem gemeinsam genutzten Dekoder pro Modul gefüttert.

<center><img src="http://www.planet3dnow.de/photoplog/file.php?n=21270&w=l" border="0" alt="Steamroller">

<img src="http://www.planet3dnow.de/photoplog/file.php?n=21271&w=l" border="0" alt="Steamroller">

<img src="http://www.planet3dnow.de/photoplog/file.php?n=21272&w=l" border="0" alt="Steamroller"></center>

Diese Änderungen sollen vor allem der Single-Thread-IPC zu Gute kommen, einer Disziplin, bei der die Bulldozer-Architektur derzeit schwächelt. Werden keine parallel arbeitenden Anwendungen und/oder Anwendungen verwendet, die nicht von den neuen Befehlssätzen profitieren, ist pro Takt gerechnet die alte K10-Architektur oft schneller als die Bulldozer-Derivate. Das soll sich mit Steamroller wieder ändern.

<center><img src="http://www.planet3dnow.de/vbulletin/attachment.php?attachmentid=27185&stc=1&d=1362664970" alt="Kaveri" border="0"><br>Quelle: <a href="http://www.brightsideofnews.com/news/2013/3/6/analysis-amd-kaveri-apu-and-steamroller-core-architectural-enhancements-unveiled.aspx" target="_blank">Bright Side of News</a></center>

Nach wie vor offen bleiben muss, ob die neuen Streamroller-Kerne lediglich in den Kaveri-APUs Verwendung finden - hier übrigens laut Leak mit bis zu 3 Compute-Units, also bis zu 6 "Kernen", wohingegen aktuelle APUs mit 2 CUs (4 "Kernen") auskommen müssen - oder ob der sogenannte Enthusiast-User nochmal mit einer Auffrischung der AM3+ Palette rechnen darf. Hierzu schweigen sich offizielle AMD Roadmaps nach wie vor aus.

<b>Links zum Thema:</b><ul><li><a href="http://www.brightsideofnews.com/news/2013/3/6/analysis-amd-kaveri-apu-and-steamroller-core-architectural-enhancements-unveiled.aspx" target="_blank">Analysis: AMD Kaveri APU and Steamroller Core Architectural Enhancements Unveiled</A></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?id=1362500242">Gerücht: AMD Kaveri mit Support für GDDR5?</A></li><li><a href="http://lists.freebsd.org/pipermail/freebsd-amd64/2012-July/014703.html" target="_blank">XSAVEOPT</A></li><li><a href="http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1346191456">AMD präsentiert Steamroller-Details, 3rd Gen Bulldozer-Architektur auf Hotchips: +30% IPC?</A></li></ul>
 
Was ich bis Heute nicht verstehe ist, wieso die bei AMD nicht germerkt haben dass wenn sich die Kerne was Teilen müssen die Leistung mies ist. Die müssen doch selber gemerkt haben dass ihre Samples gegen den Ph2 und X6 Lausig dastehen? Traurig zu dem dass es so Lange gedauert hat von diesem Unsinn wieder abzukommen. Denke mal die neuen CPU´s werden richtig ein raus hauen. So lange der Stromverbrauch sich nicht auch Positiv entwickelt werden Sie Intel nicht einholen können.

mfg
 
Also überrascht haben mich die 3 Module und die zwei fetten Dekoder.
Steamroller wird wohl ordentlich Piledriver und vor allem Bulldozer in vielen Disziplinen verprügeln. ;D


Was ich bis Heute nicht verstehe ist, wieso die bei AMD nicht germerkt haben dass wenn sich die Kerne was Teilen müssen die Leistung mies ist. Die müssen doch selber gemerkt haben dass ihre Samples gegen den Ph2 und X6 Lausig dastehen? Traurig zu dem dass es so Lange gedauert hat von diesem Unsinn wieder abzukommen. Denke mal die neuen CPU´s werden richtig ein raus hauen. So lange der Stromverbrauch sich nicht auch Positiv entwickelt werden Sie Intel nicht einholen können.

mfg
Wer weiß wie hektisch es dort zuging und ob nicht jeder Bescheid wusste, dass das Design noch so viele Lücken und Engpässe hat.
Aber Geld und Zeit können limitieren, dann muss man sich entscheiden schiebt man es weiter auf oder wagt man den Schritt.
Das die ist ja mit ~ 300mm² kein kleiner Spatz.
Mit 28nm kann man sich an einigen Stellen wenigstens etwas mehr leisten.

Und Intel werden sie schon aus Prinzip nicht einholen können.
Wie will man mit 28nm planar 22/14nm Trigate in Sachen Perf/Watt einholen wollen?
 
Was ich bis Heute nicht verstehe ist, wieso die bei AMD nicht germerkt haben dass wenn sich die Kerne was Teilen müssen die Leistung mies ist.
Wo bitteschön ist die mies? Etwa 80% Durchsatz ist doch genau das, was Vorgabe war. Jetzt kann man weiter optimieren, um den 100% zweier vollwertiger Kerne nahe zu kommen. Mies ist eher das, was bei Hyperthreading rauskommt, mit ~60% Durchsatz. Bulldozers Problem war weniger das Teilen, sondern mehr das exklusive Nutzen von Einheiten, also singlethreaded IPC. Dort hat man aber ebenfalls deutliche Verbesserungen vorgenommen.

Die müssen doch selber gemerkt haben dass ihre Samples gegen den Ph2 und X6 Lausig dastehen?
Orochi versägt einen X6 mal locker mit zweifacher Performance, wenn vernünftig optimiert wurde. Lausig ist was anderes. ;)

Traurig zu dem dass es so Lange gedauert hat von diesem Unsinn wieder abzukommen.
Welcher Unsinn und von was abkommen? Steamroller ist weiterhin Bulldozer. Nur halt die nächste Evolutionsstufe. Am Grundprinzip hat sich nichts verändert.

So lange der Stromverbrauch sich nicht auch Positiv entwickelt werden Sie Intel nicht einholen können.
Die Leistungsaufnahme ist nicht so schlecht, wie sie oft hingestellt wurde. Auch mal Vergleiche abseits von FX-8150/8530 und den wenig relevanten Volllastmessungen anschauen. ;)
 
Orochi versägt einen X6 mal locker mit zweifacher Performance, wenn vernünftig optimiert wurde. Lausig ist was anderes. ;)
Achso? Die Realität sieht leider anders aus. Kannst du mal Beispiele verlinken wo man entsprechend Performance gewinnt?

Die Leistungsaufnahme ist nicht so schlecht, wie sie oft hingestellt wurde. Auch mal Vergleiche abseits von FX-8150/8530 und den wenig relevanten Volllastmessungen anschauen. ;)
Doch, die Leitungsaufnahme ist schlecht. Klar verbrauchen die Chips unter "normalen" Anwendungen weniger als mit Prime, etc. weil die CPU nicht voll ausgelastet wird. Das gleiche gilt für die Konkurrenz allerdings auch.
 
Achso? Die Realität sieht leider anders aus. Kannst du mal Beispiele verlinken wo man entsprechend Performance gewinnt?
Wurde doch nun schon oft genug gemacht. Schau dir Vergleiche an wie NAS Parallel Benchmarks oder C-Ray.

Doch, die Leitungsaufnahme ist schlecht.
Nein, ist sie per se nicht.

Klar verbrauchen die Chips unter "normalen" Anwendungen weniger als mit Prime, etc. weil die CPU nicht voll ausgelastet wird. Das gleiche gilt für die Konkurrenz allerdings auch.
Aber nicht in gleichem Masze, da Intel zB kein Clock Grid wie Bulldozer hat und Hyperthreading auch nicht so viel Einsparungspotenzial bietet. Schau dir bei letzterem zB mal die Vergleichszahlen zwischen Llano und i3 an:



Bei voller Last liegt Llano klar über dem i3. Bei Last auf lediglich 2 Kernen sieht es hingegen schon ausgeglichen aus. Mit lediglich einem Kern ist Llano sogar sparsamer. Was in dem Fall aber sicherlich auch teils dem sparsameren Board geschuldet ist. Und das wird mit Teillast auf einem Kern noch komplizierter und schwieriger zu beurteilen. Sry, aber zu sagen, die Leistungsaufnahme sei per se zu schlecht, kann man nicht gelten lassen.
 
interessant, daß da "2-3 compute units" steht, aber vier Kästchen hintereinander geschachtelt sind. Sicher absichtliche Verwirrung. Machbar wäre beides, die leere Ecke bei einem 3-Moduler-Die könnte man ja mit der GPU und/oder Southbridge auffüllen.
 
@gruffi:
Dass die Leistung in Programmen/Benchmarks, die von allen Int-Kernen Gebrauch machen können und nicht durchs Modul-Design ausgebremst werden sich sehen lassen kann ist mir bekannt. Wie man so auf zweifache Performance eines X6 kommt, ist mir nach wie vor schleierhaft.

Das Beispiel der Leistungsaufnahme ist sehr plakativ. Der i3 2105 ist eine Dual-Core CPU mit HT, der Llano ein Quad-Core. Mit 2 Threads ist der i3 schon fast voll ausgelastet, das sieht man auch an dem geringen Sprung auf 4 Threads. Aber ich denke hier spielt eher das Board eine Rolle (wobei eventuell ja der Intel Chipsatz mehr Strom braucht, das weiß ich nicht).

Es ging mir außerdem um die Leistungsaufnahme der Bulldozer-Derivative. Ich wollte AMDs Leistungsaufnahme nicht generell schlechtreden. Aber bei den hohen Taktfrequenzen die man im Desktop-Bereich braucht sieht Zambezi/Vishera gegen Ivy Bridge derzeit in diesem Bereich kein Licht, weshalb AMD auch so stark über den Preis gehen muss. Wenn die Chips so toll wären würde ein 8350 nicht 200 sondern 600 Euro kosten ;)
 
Dass die Leistung in Programmen/Benchmarks, die von allen Int-Kernen Gebrauch machen können und nicht durchs Modul-Design ausgebremst werden sich sehen lassen kann ist mir bekannt. Wie man so auf zweifache Performance eines X6 kommt, ist mir nach wie vor schleierhaft.
Dann schau dir die Anwendungen an. Wenn der FX8 doppelt so schnell arbeitet, dann ist das eben zweifache Performance. As simple as that! ;)

Das Beispiel der Leistungsaufnahme ist sehr plakativ.
Deshalb habe ich es ja gebracht. Ein Prozessor verbringt nun mal die wenigste Zeit mit Vollast. Insofern sind solche Vergleiche eher nebensächlich für den Alltag. Es gibt auch nicht nur FX-8150/8350, wo Takt und TDP gut ausgereizt werden. Schau dir auch mal andere Modelle an. Und ob der i3 ein Dual-Core mit HT ist oder nicht, interessiert am Ende nicht. Er stellt 4 Threads zur Verfügung, genauso wie Llano.

Es ging mir außerdem um die Leistungsaufnahme der Bulldozer-Derivative. Ich wollte AMDs Leistungsaufnahme nicht generell schlechtreden.
Na dann sind wir uns ja einig. Denn genau das ist sie auch nicht.

Aber bei den hohen Taktfrequenzen die man im Desktop-Bereich braucht sieht Zambezi/Vishera gegen Ivy Bridge derzeit in diesem Bereich kein Licht
Der Vergleich hinkt schon deshalb, weil du hier 32 und 22nm vergleichst und weniger Bulldozer.
 
ich für meinen Teil.. bin vom FX83 positiv überrascht und kann mir gut vorstellen das die FX81 wie damals die Phenom I sind.

Was Steamroller angeht, bin ich gespannt ob AMD bei der Sockelpolitik bleibt und 2-3 Generationen auf einen Sockel laufen lassen oder nicht. (Am3+)

Meine Spekulation ist ja folgende, wenn AMD sagt sie wollen erst ende 2013 eine neue Grafikkarten Generation f. den Desktop Markt bringen.
Wird es dann ende 2013 auch ein neuen Desktop CPU Sockel (AM4) inkl. neuer Chipsätze geben? (Support f. DDR4/PCIe3.0 etc)

Auf jedenfall ist die Entwicklung die wir beobachten auf den richtigen Weg,mMn. :)

Weiter so AMD.

Grüße
 
Ich denke dass AM3+ der letzte HT-fähige Sockel war. Eher wird man die beiden Dekstopsockel zusammenlegen, vermutlich als FM3 o.ä.
 
Ich denke dass AM3+ der letzte HT-fähige Sockel war. Eher wird man die beiden Dekstopsockel zusammenlegen, vermutlich als FM3 o.ä.

:] ??? na, in dem Falle hoffe u. bete ich das Du unrecht haben wirst. ;)
Und wenn doch dann hoffe ich das sie es so beibehalten das die APU´s (FM2) auch ebenfalls Ohne Gpu Kern zu erhalten werden sind u. diese dann weiterhin auf Am3+ Sockel lauffähig sein werden.
Wobei das mit den Pins so ne sache sein wird.. bei den vielen, dickeren Am3+ Pins..

Gruß Andy
 
Zuletzt bearbeitet:
Zurück
Oben Unten