News AMD präsentiert nächstes GPU Design und kehrt VLIW den Rücken; Update 16.6: Gemeinsamer Adressraum mit x86

User-News

Von Opteron

Hinweis: Diese "User-News" wurde nicht von der Planet 3DNow! Redaktion veröffentlicht, sondern vom oben genannten Leser, der persönlich für den hier veröffentlichten Inhalt haftet.
afdslogobmca.png


Wie man schon auf der Hauptseite lesen konnte, findet derzeit der AMD Fusion Developer Summit (AFDS) statt. Neben einer kleinen Demo des nächsten Fusion Chips Trinity gab AMD dabei auch Details zur nächsten GPU Design preis.

Kurz zur Erinnerung, mit der HD2900 führte AMD 2007 erstmals eine Karte mit VLIW5 Vector Einheiten ein:

Dabei werden bis zu 5 Befehle in ein VLIW Paket verpackt und dann von 5 Recheneinheiten abgearbeitet. Dieses "Verpacken" geschieht dabei per Software mittels eines Compilers, der im Grafiktreiber integriert ist. Der Vorteil liegt auf der Hand: Es wird weniger Chipfläche für die Thread/VLIW Logik gebraucht, d.h. es bleibt mehr Platz für die eigentlichen Recheneinheiten.

Der Nachteil ebenfalls: Dass ein komplettes VLIW Paket gefüllt werden kann, ist sehr unwahrscheinlich. Im Mittel waren es um ~3 Instruktionen pro Paket. Außerdem ist ist der "Packetbündelalgorithmus" nicht trivial, sondern eher komplex zu nennen.

Letztes Jahr gab es mit der HD6900 Reihe bereits die erste Abkehr vom lang verwendeten VLIW5 System. Eine Einheit wurde entfernt und deren Aufgaben auf die restlichen 4 Einheiten, die dafür etwas verbessert wurden, verteilt. Kurz: VLIW4 wurde benützt.

Dadurch, dass die verbliebenen 4 Einheiten fast die gleiche Funktionalität haben, und natürlich durch das Wegfallen der 5ten Einheit, vereinfachte sich das Verteilen der Instruktionen. Allerdings scheint es nicht genug gewesen zu sein, denn nun kehrt AMD dem VLIW Prinzip komplett den Rücken, und greift einen nVidia ähnlichen Ansatz auf: Mehrere, unabhängige SIMD Einheiten sollen es jetzt richten:
img0032663_1mjpiqmqo.jpg


Edit 16.6.2011:
Der Betrieb dieser Einheiten ist dabei recht flexibel, SIMD, MIMD, SMT, alles ist möglich:
php0nkotf08q88i.jpg


Die Vorteile gegenüber eines VLIW Designs werden hier angesprochen, links mit VLIW (alte Generation ab R600), rechts die neue Generation:
img0032678_178f8.jpg



Vermutlich war die steigende Komplexität, die mit jeder weiteren Shader Einheit zunahm, am Ende doch zuviel. Auf obiger Folie wird neben dem bereits erwähnten, komplexen Compiler noch auf komplexe Assemblercodes, schwieriges Debugging und komplizierte Tools verwiesen. AMD weist desweiteren auf den folgenden Präsentationsfolien deutlich auf die vereinfachte ISA und auf die vereinfachte Programmierbarkeit hin:

img0032686_1zmv0.jpg

img0032687_1qmpk.jpg


Ein weiterer Vorteil ist laut AMD, das die Leistung besser vorhersagbar ist. Die alte VLIW Designs konnten zwar oft mit hoher, theoretischer Rechenleistung glänzen, jedoch war die Leistung in der Praxis nicht genauso hoch, sondern lag typischerweise um die ~70-80%, wohingegen nVidia Ihre theoretische Rechenleistung deutlich besser ausschöpfen konnte.

Weitere Neuerungen:
  • Es gibt eine extra 32/64bit Skalar Unit, z.B. vergleichbar mit einem abgespeckten Bulldozer INT Cluster.
  • Alle Caches werden durch ECC abgesichert, was im professionelle Umfeld fast schon Pflicht ist und bei nvidia schon durch Fermi eingeführt wurde.
  • Ebenfalls an Bord ist eine Branch Unit
  • Mehr Programmierfeatures: Funktionsaufrufe, Rekursion und Exceptions werden unterstützt.
Update vom 16.6.:
Weiteres Merkmal ist die Unterstützen der 64bit Speicherpointer der CPU. Bisher muss man Daten noch vom CPU RAM in den Grafikspeicher laden, um die GPU rechnen zu lassen, das fällt nun weg:
phpn2ktrq07aj2a.jpg


Genutzt wird dabei die IOMM Unit des Chipsatzes, die erstmals im 890FX Chipsatz zu finden war. Mittlerweile sind alle Modelle der neuen, 900er Chipsatzreihe für AM3+ mit einer IOMMU ausgerüstet:
phpt7z9tv10d8ve.jpg




Alles in Allem ist zeigt man sich mit dieser Architektur bestens für die kommende OpenCL und C++ AMP Zukunft gerüstet:
phpfer4tk009e802.jpg



Eventuell wird die neue Architektur bereits Ende diesen Jahres im Laden stehen, so man dieser Meldung Glauben schenken will:
"In a couple of days you are going to hear about our exciting new graphics architecture that will be coming out later this year and will be utilized by our future APUs," so Rick Bergman.
http://www.xbitlabs.com/news/graphi...neration_Radeon_Graphics_Later_This_Year.html

Update 17.6:
Gestern wurde der Start Ende 2011 noch einmal bestätigt. Im Live Blog auf pcper (unter Quellen verlinkt), konnten es die Moderatoren fast selbst nicht glauben:
MAJOR CORRECTION TO MAKE: the compute unit technology we are getting details on here is for the NEXT GPU architecture to be released, it is NOT two gens away. You will see parts based on this design by the end of the year!!!
Diskussion im Forum:
http://www.planet3dnow.de/vbulletin/showthread.php?t=389946

Präsentationsfolien:

Update 18.6: Mittlerweile gibts alle PDFs bei AMD zum Herunterladen:
http://www.planet3dnow.de/vbulletin/showthread.php?p=4447839#post4447839

Alte Screenshots:


Programmierbeispiele:


Updateslides 16.6:


Quellen:
http://www.hardware.fr/news/11648/afds-architecture-futurs-gpus-amd.html
http://www.pcper.com/news/Editorial/AMD-Fusion-Developer-Summit-2011-Live-Blog
 
Zuletzt bearbeitet:
super news. wenn das so stimmt und die HD7xxx auftrumpfen kann, dann hoffe ich wird Folding@Home wieder Spaß machen mit einer AMD Graka!
 
Aber lustig ist es schon. Zuerst verteufelt man nVidias Fermi wo man kann und dann klont man ihn wenig später beinah 1:1. :P
 
Aber lustig ist es schon. Zuerst verteufelt man nVidias Fermi wo man kann und dann klont man ihn wenig später beinah 1:1. :P

Falsch. Sieh bitte in den verlinkten Thread, Fermi hat einzelne Skalarrechenwerke, bei dem hier gezeigten handelt es sich um Vektorrechenwerke.
 
Falsch. Sieh bitte in den verlinkten Thread, Fermi hat einzelne Skalarrechenwerke, bei dem hier gezeigten handelt es sich um Vektorrechenwerke.

Hätte mich auch sehr gewundert, wenn AMD seine gute Vektorlösung zu Gunsten eines Fermi-Skalardesigns geschmissen hätte.

Dia
 
...bei dem hier gezeigten handelt es sich um Vektorrechenwerke.
Es ist eine skalare Einheit ergänzt um vier SIMD Einheiten. Das hat ein wenig vom IBM Cell. Aber auch nur ganz entfernt.
Dennoch ähnelt damit die neue AMD Generation deutlich stärker nVidias aktueller Architektur als die der R8xx/R9xx.

Aber wie sagt man so schön: Vom Feind lernen, heißt Siegen lernen...
 
Wenn du dir die Folien genau ansiehst erkennst du, dass es sich hierbei viel mehr um 4 SIMD Einheiten ergänzt um eine skalare Einheit handelt. Auch wenn es ein radikale Abkehr vom bisher gefahrenen VLIW Ansatz ist, ähnelt die Architektur damit mehr der Geforce7 / Radeon X1800, als NVdias aktueller Arch.
 
Falsch. Sieh bitte in den verlinkten Thread, Fermi hat einzelne Skalarrechenwerke, bei dem hier gezeigten handelt es sich um Vektorrechenwerke.

Das ist irgendwie alles in einem, neue Folie von heute:
php0nkotf08q88i.jpg


MIMD, SIMT, sogar SMT und Vector und Scalar ;-)
 
SMT? das SMT?

Das Ganze ist mEn, und ich bin kein Fachman auf dem Gebiet, eine relativ aufwendige Architektur im Vergleich zum Vorgänger.
 
SMT? das SMT?

Das Ganze ist mEn, und ich bin kein Fachman auf dem Gebiet, eine relativ aufwendige Architektur im Vergleich zum Vorgänger.

Jein, SMT heißt erstmal nur, dass unterschiedliche Threads gleichzeitig auf nem Prozessor laufen, wie genau ... da gibts viele Wege.

Gipsel hats hier im Detail erklärt:
http://www.planet3dnow.de/vbulletin/showthread.php?p=4447839#post4447839

Ansonsten, die Präsentationsfolien sind jetzt online:
http://developer.amd.com/DOCUMENTATION/PRESENTATIONS/Pages/default.aspx
 
Ah, ok, danke für den Link :)
 
Da die Folien nun zum Download bereit stehen möchte ich eure Aufmerksamkeit auf Folie 20 von http://developer.amd.com/documentation/presentations/assets/6-Demers-FINAL.pdf lenken.


"Features added incrementally each year"

Meine Interpreation: nix is mit dem großen Sprung auf die neue Architektur die da kommen wird um all unsere Probleme zu lösen, deren simpelste Parameter zu berechnen wir aber unwürdig sind.

Nicht vergessen: Auch AMD kocht nur mit Wasser und begrenzten Ressourcen.
 
Zurück
Oben Unten