Kaveri - der Trinity Nachfolger

BoMbY · 23.01.2014

gruffi schrieb:
Ich denke nicht mal, dass ein Treiber notwendig ist. In deinem zitierten Text steht ja auch nur "HSA enabled device". hUMA ist ein Hardwarefeature. Das sollte also auch ohne expliziten Softwaresupport funktionieren. Das ist was anderes als zB ISA-Erweiterungen wie SSE oder AVX, die wiederum expliziten Softwaresupport erfordern. Man kann hUMA vielleicht am besten mit einem shared Cache vergleichen. Auf diesen können mehrere Kerne auch direkt zugreifen, ohne dass erst was von einem zum anderen Cache kopiert werden muss. Völlig unabhängig von der verwendeten Software.

Ich denke schon, denn wenn der OpenCL-Treiber nichts von der Hardware weiß, dann macht der ja weiter ein Memcopy, wo er eigentlich keines braucht. Daher wäre ein Vorher/Nachher-Vergleich gut, wenn die 13.35 Treiber raus sind. Soweit ich das verstehe, brauchen die erstmal den neuen LLVM-Compiler zwischen API und Hardware, damit es läuft. Also im Beispiel von OpenCL sollte es eigentlich so laufen: OpenCL -> LLVM -> HSAIL -> Hardware.

Edit: Siehe auch deren Hsa10 whitepaper:

gruffi · 23.01.2014

BoMbY schrieb:
Ich denke schon, denn wenn der OpenCL-Treiber nichts von der Hardware weiß, dann macht der ja weiter ein Memcopy, wo er eigentlich keines braucht.

Wobei einfache memcopys immer im gleichen Adressraum erfolgen. Also wo sie bisher notwendig waren, werden sie auch weiterhin notwendig sein. Interessant ist also, wo bisher vom RAM in den VRAM und umgekehrt kopiert werden musste. Keine Ahnung, wie das intern genau abläuft. Was vom Treiber übernommen wird, kann mit einem hUMA-aware Treiber sicherlich noch optimiert werden. Was von der Hardware übernommen wird, sollte wie gesagt auch ohne expliziten Treibersupport besser laufen.

BoMbY · 24.01.2014

Naja, ich meinte jetzt schon den Transfer in das GraKa-RAM. Im Prinzip müsste das ein Kommando an die CPU/GPU per DMA einen Speicherbereich über den PCIe-Bus zu kopieren. Wenn der Treiber das Kommando schickt, dann wird das auch weiter gemacht? Ich kann mir nicht vorstellen, dass das Kommando einfach ignorieren wird, und stattdessen direkt auf den Speicher zugegriffen wird, ohne das man das explizit erlaubt? Mal ganz abgesehen von möglichen Problemen wegen geschütztem Speicher, etc.

chrisihamm · 24.01.2014

Hat sich jemand eigentlich schon einmal die ersten HSA Benchmarks angeschaut?
Ich bin zufällig auf """""""http://www.xtremesystems.org/forums/showthread.php?288366-AMD-Kaveri-Review-Focused-on-HSA-Features"" darauf gestoßen.

FredD · 24.01.2014

Hier nochmal als Link:

Xtremesystems.org - AMD-Kaveri-Review-Focused-on-HSA-Features

Ich glaube, den können wir noch gebrauchen, spätestens wenn mal wieder ein übereifriger Forist die gefühlt 38947561209435892te Debatte "Aber SuperPi und X86..." anstößt.

Menace · 24.01.2014

Wenn jetzt nicht nur Corels AfterShot Pro sonder Capture One 7 Pro genauso schneller wird, wird die Sache hochinteressant. Wenn das zusätzlich zu dezidierten Grafikkarten zu einer Beschleunigung führt, könnte das für AMD doch noch interessant werden.

---------- Beitrag hinzugefügt um 13:08 ---------- Vorheriger Beitrag um 13:03 ----------

Ich habe mal bei Phase One eine Anfrage gestellt.

BoMbY · 24.01.2014

Hab noch folgendes zu OpenCL und HSA im Artikel von AnandTech vom 14.01. gefunden:

OpenCL: At the time of launch, Kaveri will be shipping with OpenCL 1.2 implementation. My understanding is that the launch drivers are not providing HSA execution stack and the OpenCL functionality is built on top of their legacy graphics stack built on top of AMDIL. In Q2 2014, a preview driver providing OpenCL 1.2 with some unified memory extensions from OpenCL 2.0 built on top of HSA infrastructure should be released. A driver with support for OpenCL 2.0 built on top of HSA infrastructure is expected in Q1 2015.

Wobei ja schon für die 13.35 Beta HSA-Unterstützung angekündigt wurde - die Frage ist in welchem Umfang.

Complicated · 24.01.2014

Alleine die Tatsache, dass AMD mit HSA die JPG Komporimierung um über das Doppelte beschleunigt ist ausreichend, wenn man bedenkt wie oft ~~eine Webseite~~ oder anderes Bildprogramm genutzt wird. Das ist definitiv schon ein Killerfeature, welches sicherlich auch gebencht werden könnte mit bestimmten Bildlastigen Webseiten oder anderen Programmen.

Edit: Sorry es ging um transcoding, also keine Webseiten die auf diesen Bench zutreffen.

SPINA · 24.01.2014

@Complicated: Da wäre ich mir nicht so sicher. Das erledigt ein Core i3 sicher in wenigen µs ohne überhaupt hochzutakten.
Jedenfalls wenn es nicht gerade JPEGs mit Gigapixel-Format sind, sondern 08/15 Bilddateien mit gängigen Abmessungen.

Andererseits wäre es interessant zu wissen wie sich HSA auf die Energie-Effizienz auswirkt. Ob sie gar verschlechtert wird?
All die Shader für solche Bagatell-Aufgaben zu wecken und sie kurz darauf wieder schlafen zu legen klingt recht ineffizient.

Menace · 24.01.2014

Wann tritt denn die jpg-Komprimierung auf? Beim Betrachten von Bildern oder wenn diese bearbeitet und dann gespeichert werden.

Falls erstes zutrifft, dann Spina, würde ich nicht zu versuchen zu verallgemeinern. Ich benötige zur Bildbearbeitung und Betrachtung von 10 000+ Bilder (Verschlagwortung, Bewertung, etc.) auch bei 08/15 Bilddateien ein entsprechendes System. Wie immer gilt, es kommt darauf an, wer was damit macht. Und dementsprechend mag es für Dich (!) Bagatell-Aufgaben sein, für mich sind das eher wichtige Aufgaben, da ich mit meinem System arbeite. Und da hätte ich gerne, dass mehr Software-Entwickler "all" die Shader dafür benutzen.

SPINA · 24.01.2014

Aber meinst du nicht, dass da eher Internetleitung oder Festplatte der Flaschenhals sind?
Ich denke eine x86 CPU wird beim JPEG Rendern Däumchen drehen und sich langweilen.

Also ich meine jetzt das reine Anzeigen. Keine Bildbearbeitung mit aufwendigen Effekten.

Menace · 24.01.2014

Dass Festplatten da auch ans Limit kommen, kann ich mir schon vorstellen. Aber ich sehe das, dass unterschiedliche Software unterschiedlich schnell arbeiten. Zum Beispiel relativ schnell auch viele Dateien anzeigen. Andere Programme (ich liebe z.B. gerade IMatch, da ist es langsamer) haben da Schwierigkeiten. Die Festplatten sind immer gleich. Außerdem könnte man auf Vorschaubilder-Cache verzichten, wenn man immer direkt aus den Original-Dateien rendern könnte. Gerade bei größeren Bilder (z.B. meiner Vollformat-Spiegelreflex) macht das schon etwas vom Workflow aus. Ich denke, da ist die Berechnung häufig langsamer, als das Lesen von Festplatte. Aber Fachmann bin ich da nicht und lasse mich gerne eines besseren Belehren.

Complicated · 24.01.2014

SPINA schrieb:
Also ich meine jetzt das reine Anzeigen. Keine Bildbearbeitung mit aufwendigen Effekten.

Transcodieren ist Umwandeln. Und der Unterschied zu den i3 und i5 sind auch deutlich. Soll mir niemand erzählen das wäre keine praktische Anwendung und würde nicht Vorteile bieten die ohne HSA nicht machbar sind.

Allerdings ist es tatsächlich der JPG Decoder der HSA Fähig ist und von AMD mit dem Catalyst Treiber den Windows eigenen ´Decoder ersetzt.
http://www.extremetech.com/computin...-wait-for-the-first-true-heterogeneous-chip/5

Opteron · 24.01.2014

SPINA schrieb:
Aber meinst du nicht, dass da eher Internetleitung oder Festplatte der Flaschenhals sind?
Ich denke eine x86 CPU wird beim JPEG Rendern Däumchen drehen und sich langweilen.

Also ich meine jetzt das reine Anzeigen. Keine Bildbearbeitung mit aufwendigen Effekten.

ALso bei meinem Firefox-Build gabs früher nen extra JPEG-Patch, der Bilder schneller codieren sollte, da er multithreaded war. Seit ein paar Versionen gibts den nicht mehr, ich nehme an, dass der jetzt schon standardmäßig drin ist.
Wird sich schon rentiert haben bei den vielen Bildchen die in nem Browserfenster umherschwirren.

Ob HSA in dem Nutzenszenario aber jetzt soviel im Gegensatz zu multithreaded CPU-Code reißen könnte .. kA, hängt sicher auch von der Bildgröße & Anzahl ab *noahnung*

Menace · 24.01.2014

Schließt sich HSA und multithreaded CPU-Code gegenseitig aus?

Opteron · 24.01.2014

Menace schrieb:
Schließt sich HSA und multithreaded CPU-Code gegenseitig aus?

Nö ich meinte es so, dass es bei den Bildchen im Browserfenster vielleicht noch keinen Unterschied macht, insbesondere, ween mans mit den Intels vergleicht.

Menace · 24.01.2014

Opteron schrieb:
Nö ich meinte es so, dass es bei den Bildchen im Browserfenster vielleicht noch keinen Unterschied macht, insbesondere, ween mans mit den Intels vergleicht.

Stimmt.

Zumal ja auch heute schon Hardware-Beschleunigung mit dabei ist (was sich auch immer dahinter verbirgt).

SPINA · 24.01.2014

Gut, aber zu diesem Benchmark heißt es in der Erklärung, dass eine Serie von JPEG Dateien durchgegangen wird. Nur wieviele sind es letztendlich? 1.000? 10.000? 100.000? Also ich lade manchmal Bilder bei Snapfish hoch und setze dafür die Auflösung in der Stapelverarbeitung runter, um die Upload-Zeit zu verkürzen. Das geht innerhalb weniger Sekunden auf der SSD. Also ich denke da gibt es bessere Killerapplikationen für HSA. Womöglich Videokompression in Echtzeit beim Webcam-Einsatz oder dergleichen. Obwohl es dafür wohl schon VCE gibt. Aber wenn es VCE nicht gäbe, käme HSA bestimmt ganz gelegen.

isigrim · 24.01.2014

Ich denke das wird vor allem im lowpower-Bereich interessant. Egal was es ist: Wenn's mit HSA schneller läuft und wohl auch effizienter, dann her damit.

Markus Everson · 25.01.2014

SPINA schrieb:
Andererseits wäre es interessant zu wissen wie sich HSA auf die Energie-Effizienz auswirkt. Ob sie gar verschlechtert wird?
All die Shader für solche Bagatell-Aufgaben zu wecken und sie kurz darauf wieder schlafen zu legen klingt recht ineffizient.

Den Gedanken hatte ich auch schon.

WindHund · 25.01.2014

SPINA schrieb:
Andererseits wäre es interessant zu wissen wie sich HSA auf die Energie-Effizienz auswirkt. Ob sie gar verschlechtert wird?
All die Shader für solche Bagatell-Aufgaben zu wecken und sie kurz darauf wieder schlafen zu legen klingt recht ineffizient.

Markus Everson schrieb:
Den Gedanken hatte ich auch schon.

Naja, wenn die Arbeit in der halben Zeit erledigt wird, wäre es bei doppelt so viel Verbrauch +/- 0%
Welcher Teil der APU mehr verbraucht, sollte angesichts der Cache Größe klar sein, oder?

Markus Everson · 25.01.2014

WindHund schrieb:
Naja, wenn die Arbeit in der halben Zeit erledigt wird, wäre es bei doppelt so viel Verbrauch +/- 0%

Halbe Zeit bei doppeltem Verbrauch? Greifst Du da nicht ein bisschen tief? Ich denke es sollte höchstens ein drittel der Zeit bei 25% mehr Verbrauch sein!

Ein Drittel der Zeit bei 25% mehr Verbrauch sind geboten. Höre ich ein Viertel bei 25%? Kein interesse bei dem herrn mit dem MRAM-Prospekt dort hinten an der Säule? Ein Drittel zum ersten...

Scherz beiseite. Natürlich kann man sich beliebige Kombinationen aus Zeitbedarf und Leistungsaufnahme frei ausdenken und dann anfangen darüber zu spekulieren was wohl wäre wenn. Ich finde das aber ziemlich überflüssig und verweise angesichts der in der vierten(?) Generation von GPU und APU immer noch katastrophalen Leistungsaufnahme bei BD darauf das AMD schon mehr als einmal mit der Eselsmütze in der Ecke stand.

Mein Gedanke den ich nicht zu ende führte: Angesichts der immer nichtssagenderen Leistungsmessungen sollte man anfangen auf Energiemengen zu messen. Das wären dann Joule statt W wenn ich nicht irre und würde eine Summierung der Messungen der elektrischen Leistungsaufnahme über die Dauer eines Tests erfordern.

isigrim · 25.01.2014

Markus Everson schrieb:
Halbe Zeit bei doppeltem Verbrauch? Greifst Du da nicht ein bisschen tief? Ich denke es sollte höchstens ein drittel der Zeit bei 25% mehr Verbrauch sein!

Naja, obiger Test (JPEG-Dekoder) zeigt doppelte Performance (= Halbe Zeit) durch den Einsatz von HSA. Der Verbrauch von Kaveri dürfte sich dabei höchstens verdoppeln (von CPU-Vollast auf CPU+GPU-Volllast). Ergo ist das was WindHund gesagt hat quasi worst case. Deine Art des Bieterverfahrens bei Spekulationen dürfte da fehl am Platze sein, WIndHunds Darstellung ist doch recht plausibel.

Ich denke die GCN-Units arbeiten effizienter für diese Art von Aufgaben und dank HSA spart man sich einen Großteil des Verbrauchs für die Kopierarbeit. Die GPU muss ja auch nicht aktiviert werden, die ist eh aktiv, wenn der Desktop läuft, man muss sie höchstens hochtakten. (Oder deaktiviert AMD inzwischen Teile der GPU im idle?)

SPINA · 25.01.2014

Das ist halt die Frage ob die integrierte Grafik der APU ein feingliedriges Power Gating und schnelle Umschaltzeiten zwischen Sleep States bietet.
Wenn sie in der Hinsicht hinter den x86 CPU Part zurück fällt, dann könnte ihre Nutzung sich durchaus nachteilig auf den Energiebedarf auswirken.

Das werden nur Tests zeigen können. Aber dort wo dies insbesondere eine Rolle spielt, wird man womöglich eh Kabinis antreffen und keine Kaveri.
Ergänzung: Die Rede ist natürlich abermals von wiederkehrenden Bagatell-Aufgaben und nicht von fordernder Dauerlast auf der Grafikeinheit.

LoRDxRaVeN · 25.01.2014

Ich weiß nicht ob hier schon mal jemand die Fläche eines Steamrollermodul gemessen/gepostet hat, aber ich poste es einfach mal. Darunter dazu einige Vergleichswerte. Die anderen Messungen sind glaube ich alle von Hans de Vries. Ein Steamrollermodul in 28nm ist also Daumen mal Pi gleich groß wie ein Bulldozermodul der ersten Generation in 32nm. Ein gewisser Fehler ist sicherlich vorhanden, da ich nur geschätzt habe, was nun zum Modul dazu gehört und was nicht, die Tendenz aber wahrscheinlich erkennbar.

LG

Codename Architektur	Node	Fläche ohne L2/L3 Cache (mm²)	Fläche mit Cache (mm²)
Steamroller	28nm	~19,4	~31,1 inkl. 2MiB L2
Bulldozer	32nm	18,0	30,9 inkl. 2MiB L2
Bobcat	40nm	4,6	8,0 inkl 0,5MiB L2
Jaguar	28nm	3,1
Sandy Bridge	32nm	18,4	29,5 inkl. 2MiB L3
Llano	32nm	9,7	32,0* inkl. 2MiB L2
Haswell	22nm	14,5

* 2 Kerne + 2MiB L2

Kaveri - der Trinity Nachfolger

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Lieutnant

Gesperrt

Vice Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Vice Admiral Special

Grand Admiral Special

Vice Admiral Special

Grand Admiral Special

Redaktion☆☆☆☆☆☆

Vice Admiral Special

Redaktion☆☆☆☆☆☆

Vice Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Ähnliche Themen

Redaktion
☆☆☆☆☆☆

Redaktion
☆☆☆☆☆☆