News APU13: AMD zeigt Battlefield-4-Demo auf Kaveri [Update: Video hinzugefügt + JPEG-Dekoder-Demo]

Und wie hat AMD das Problem "gelöst"? Durch Zauberei? Es bleibt auch bei AMD bei 2x64-Bit (DDR3).

Durch ZeroCopy und gemeinamen Adressraum ist der Bandbreitenbedarf für ein und die selbe Aufgabe enorm gesunken (oder wird sinken ^^)
So gesehen hat AMD das Bandbreitenproblem ordentlich angepackt.
 
Durch ZeroCopy und gemeinamen Adressraum ist der Bandbreitenbedarf...
Aber wie oft kommt es vor, dass bei 3D Spielen ein Datensatz zwischen CPU und GPU hin- und hergeschoben wird?

Bei OpenCL mag es anders aussehen, aber bei Spielen stellt der PEG Port doch im Regelfall eine Einbahnstraße dar.
AGP wurde damals zum Beispiel bei Spielen durch den langsamen Rückkanal kaum bis gar nicht ausgebremst.
 
Zuletzt bearbeitet:
Aber wie oft kommt es vor, dass bei Spielen ein Datensatz zwischen CPU und GPU hin- und hergeschoben wird?

AGP wurde damals zum Beispiel bei Spielen durch den langsamen Rückkanal kaum bis gar nicht ausgebremst.

Sämtliche Grafikdaten müssen von der CPU in den Grafikspeicher kopiert werden. Inkarnieren können sie dort schlecht von alleine ;)
Bei einer APU braucht der Grafikteil nur einen pointer auf die Adresse setzen wo sich die Grafikdaten befinden.
Es muss nichts hin und her kopiert werden. Das ist ja der ganze Witz von HUMA.
 
Erstmal gibt es keine Iris Pro bei Desktop Prozessoren, nur bei mobilen Ablegern. Ausserdem ist die Iris Pro eine ganz andere Kostenklasse, da es zwei Chips sind, mit deutlich mehr Chipfläche. Und das trotz kleinerer Fertigung. In den gängigen i3-i7 für LGA ist jedenfalls maximal die HD 4600 verbaut. Daran muss man sich wie gesagt messen lassen.
Es war ja mal der Core i7-4770R angekündigt mit HD5200 - zwar verlötet, aber immerhin für den Desktop. Nur zu sehen bekommt man das gute Stück irgendwie nicht.
 
Die CPU ist doch nur an den ersten Schritten des Rendering beteiligt. Hat sie soviel zu stemmen?

Das Rastermodell wird sie erstellen, aber ob sie überhaupt die Texturen zu Gesicht bekommt?
Es muss nichts hin und her kopiert werden. Das ist ja der ganze Witz von HUMA.
Das ist mir schon klar. Nur so schön die Theorie auch klingen mag, frage ich mich wieviel es in der Praxis einspart.
 
Zuletzt bearbeitet:
Die CPU ist doch nur an den ersten Schritten des Rendering beteiligt. Hat sie soviel zu stemmen?

Das Rastermodell wird sie erstellen, aber ob sie überhaupt die Texturen zu Gesicht bekommt?

Na wie glaubst Du erscheinen die Texturdaten im Grafikspeicher?
Direkt von der DVD hineinbeamen oder wie?
Natürlich über die CPU und deren Speicher.
Bei HUMA erstpart man sich mindestens 2 Speicherkopiervorgänge.
 
Aufgeholt noch lange nicht, zumindest nicht technologisch. Es ist halt einfach ein Brute Force Ansatz auf viel Chipfläche. GT3e ist fast 350 mm² gross, trotz 22 nm Fertigung. Linear auf 28 nm hochgrechnet wären das über 560 mm². Bei vermutlich 200-250 mm² für Kaveri würden da mehr als 2 Kaveris reinpassen. Also mehr als 4 Steamroller Module, 1024 GCN Shader, Quad-Channel usw. Selbst bei etwas geringerem Takt würde da immer noch wesentlich mehr Performance rausspringen als mit einem Kaveri. Selbst die GT3 (ohne eDRAM) ist mit 264 mm² vermutlich immer noch grösser als Kaveri. Bei knapp 430 mm² in 28 nm würde das vermutlich für mehr als 1,5 Kaveris reichen. Der mMn einzig interessante Vergleich oberhalb der HD 4600 wäre der mit HD 5100, da diese zumindest ohne eDRAM auskommen muss und mit fast genauso viel GFLOPS beworben wird wie Kaveri (832 vs 856). Hier könnte man zumindest sehen, welche Architektur effizienter arbeitet und mehr aus der theoretischen Rechenleistung rausholt.

Der Prozessor mit 5200 Grafik ist mit 47W angegeben. Und dann ist das Teil so schnell, dass aktuelle Spiele damit laufen.
Und dieses eDRAM ist alles andere als ein Nachteil, wenn man die Architektur der PC Hardware mal genauer überschaut.
Wo soll denn die Bandbreite bei DäDäRä 3 RAM noch her kommen?

AMD sollte sich vllt. mal Gedanken über eDRAM machen....

---------- Beitrag hinzugefügt um 19:27 ---------- Vorheriger Beitrag um 19:23 ----------

Na wie glaubst Du erscheinen die Texturdaten im Grafikspeicher?
Direkt von der DVD hineinbeamen oder wie?
Natürlich über die CPU und deren Speicher.
Bei HUMA erstpart man sich mindestens 2 Speicherkopiervorgänge.

Komisch ist nur, dass zu PCI Zeiten und mit RD-RAM der PC schon in der Lage war, über den DMA Controller die Daten von der Festplatte direkt in die Geräte zu laden, ohne die CPU zu beeinflussen.
Kaum ist der PCI-BUS von den Hauptplatinen verschwunden, kommt eine "neue Technik" ;) ....
 
Komisch wusste nicht dass eine Festplatte einen Grafikspeicher hat wo war da bloß der VGA-Ausgang auf der Festplatte ;)
 
Komisch wusste nicht dass eine Festplatte einen Grafikspeicher hat wo war da bloß der VGA-Ausgang auf der Festplatte ;)

Bist ja heute mal wieder unlustig ....

Die Daten konnten per "Burst" direkt von der HD in den RAM Bereich der Grafikkarte geladen werden, ohne die CPU zu belasten.
 
Es muss nichts hin und her kopiert werden. Das ist ja der ganze Witz von HUMA.
Das ist bei vielen noch immer nicht richtig angekommen.

Wo soll denn die Bandbreite bei DäDäRä 3 RAM noch her kommen?

AMD sollte sich vllt. mal Gedanken über eDRAM machen....

Warum, ist der schneller als gemeinsamer GDDR5 RAM für CPU und GPU?
Die Daten konnten per "Burst" direkt von der HD in den RAM Bereich der Grafikkarte geladen werden, ohne die CPU zu belasten.
Das halte ich aber für ein Gerücht. Wer hat denn bei DMA den Direct Memory Access? Ich hätte gern einen Link wo die Technik des "Burst" HDD->GPU-Memory beschrieben wird, ohne, dass die CPU involviert ist
 
Der Prozessor mit 5200 Grafik ist mit 47W angegeben. Und dann ist das Teil so schnell, dass aktuelle Spiele damit laufen.
Und dieses eDRAM ist alles andere als ein Nachteil, wenn man die Architektur der PC Hardware mal genauer überschaut.
Wo soll denn die Bandbreite bei DäDäRä 3 RAM noch her kommen?
Und was hat das jetzt mit meinem Beitrag zu tun? Das ändert doch nichts daran, dass Intel bezüglich Grafiktechnologie noch lange nicht aufgeholt hat, sondern einfach auf Brute Force gegen AMD setzt, ermöglicht durch den Fertigungsvorteil.

AMD sollte sich vllt. mal Gedanken über eDRAM machen....
Wozu? AMDs Ziel heisst Stacked Memory.
 
Die Daten konnten per "Burst" direkt von der HD in den RAM Bereich der Grafikkarte geladen werden, ohne die CPU zu belasten.
Klar, das ist DMA. Betrifft aber nur Daten, die unverändert gezogen werden können. Aber die Renderdaten entstehen ja erst in der CPU, die werden da errechnet und dann an die GPU geschickt. Also genauergesagt schieben sich Daten erstmal zwischen RAM und CPU hin und her, und wenn die fertig ist, muß sie den Kram an die GPU weiterschieben, die das Zeug wieder in ihren RAM schiebt. Und da fällt eben ne ganze Menge an Rumgeschiebe weg, wenn er derselbe RAM ist, den CPU und GPU benutzen. Analog zu Festplatten, wo nicht mehr tatsächlich von einer Partition zu einer anderen gelesen und neu geschrieben wird, sondern beim Verschieben eines Ordners keine Datei tatsächlich angefaßt.
 
Das halte ich aber für ein Gerücht. Wer hat denn bei DMA den Direct Memory Access? Ich hätte gern einen Link wo die Technik des "Burst" HDD->GPU-Memory beschrieben wird, ohne, dass die CPU involviert ist

Der Unterschied zwischen Datenpolling und DMA ist dir schon bewusst?
AGP als Erweiterung zu PCI war in der Lage DMA zu nutzen und ebenso war dem Grafikchip ein Teil des Arbeitsspeichers zugänglich. Bis dieser PCIe-Schmuh eingeführt wurde, war also das ganze System in der Lage "ohne CPU" Daten hin und her zu schieben. Klar, gewisse Befehlsabläufe gingen über die CPU, das waren aber nur geringe "%"e.

---------- Beitrag hinzugefügt um 20:48 ---------- Vorheriger Beitrag um 20:42 ----------

Klar, das ist DMA. Betrifft aber nur Daten, die unverändert gezogen werden können. Aber die Renderdaten entstehen ja erst in der CPU, die werden da errechnet und dann an die GPU geschickt. Also genauergesagt schieben sich Daten erstmal zwischen RAM und CPU hin und her, und wenn die fertig ist, muß sie den Kram an die GPU weiterschieben, die das Zeug wieder in ihren RAM schiebt. Und da fällt eben ne ganze Menge an Rumgeschiebe weg, wenn er derselbe RAM ist, den CPU und GPU benutzen. Analog zu Festplatten, wo nicht mehr tatsächlich von einer Partition zu einer anderen gelesen und neu geschrieben wird, sondern beim Verschieben eines Ordners keine Datei tatsächlich angefaßt.

AGP und CPU teilten sich gemeinsame Speicherbereiche. So war es möglich, direkt in Speicher zu "Rendern", der auch dem Grafikchip zugänglich war.
Mit RD-RAM war sogar gleichzeitiger Zugriff möglich. Zu P3 Zeiten und mit dem 820er Chipsatz hätte man das voll ausfahren können. Aber, alles was man von den "Fachleuten" las war, dass RD-RAM viel zu schnell für den P3 wäre, anstatt das Feature auszubauen. Spiele wie GTA profitierten zufällig davon. So waren zwar nicht mehr FPS drin, aber das Rasen durch die Spielewelt lief deutlich flüssiger als mit "normalen" P3 Systemen.

---------- Beitrag hinzugefügt um 20:59 ---------- Vorheriger Beitrag um 20:48 ----------

Und was hat das jetzt mit meinem Beitrag zu tun? Das ändert doch nichts daran, dass Intel bezüglich Grafiktechnologie noch lange nicht aufgeholt hat, sondern einfach auf Brute Force gegen AMD setzt, ermöglicht durch den Fertigungsvorteil.

Der Fertigungsvorteil ist das "Hauptproblem" für AMD. Intel spielt hier, mehr oder weniger, Katz und Maus.

Wozu? AMDs Ziel heisst Stacked Memory.

AMDs Ziel sollte eine Beschleunigung der Reduzierung der Fertigungsgröße sein oder eben die Reduzierung der Leistungsaufnahme.
 
@IXS: Die CPU wurde bei der Verwaltungsaufgabe entlastet, aber an der Speichernutzung hat sich durch DMA wenig geändert.
 
@IXS
Meiner Frage und Aufforderung deine Behauptung mit technischen Quellen zu belegen bist du dennoch nicht nachgekommen. Da spielt der Unterschied zwischen Datenpolling und DMA keine Rolle, ob der mir bewusst ist oder nicht. Es ist einfach Unfug was du behauptest. Vor allem da DMA Zugriffe von HDDs niemals in den GPU Speicher erfolgten, sondern in den Systemspeicher. Daher kommt auch dein RD-RAM Beispiel... Also was sollte dann die technische Augenwischerei?
Die Daten konnten per "Burst" direkt von der HD in den RAM Bereich der Grafikkarte geladen werden, ohne die CPU zu belasten.
Das hat noch nie stattgefunden mittels DMA! Das ging noch nicht mal mit einer onBoard verbaute iGPU, welche System-RAM als GPU Speicher gemappt hatte.
 
Der Fertigungsvorteil ist das "Hauptproblem" für AMD. Intel spielt hier, mehr oder weniger, Katz und Maus.
Nochmal, was hat das konkret mit meiner Aussage zu tun? Ich sagte doch nichts gegenteiliges. Es ging um die Grafiktechnologie. Da ist Intel eben nach wie vor deutlich hinter AMD. Fertigung ist ein anderes Thema.

AMDs Ziel sollte eine Beschleunigung der Reduzierung der Fertigungsgröße sein oder eben die Reduzierung der Leistungsaufnahme.
Du lenkst schon wieder ab. Du sprachst von eDRAM. Das war das Thema. Und dort ist AMDs langfristiges Ziel eben Stacked Memory. Fertigung oder Leistungsaufnahme ist wie gesagt ein anderes Thema.
 
@IXS
Meiner Frage und Aufforderung deine Behauptung mit technischen Quellen zu belegen bist du dennoch nicht nachgekommen. Da spielt der Unterschied zwischen Datenpolling und DMA keine Rolle, ob der mir bewusst ist oder nicht. Es ist einfach Unfug was du behauptest. Vor allem da DMA Zugriffe von HDDs niemals in den GPU Speicher erfolgten, sondern in den Systemspeicher. Daher kommt auch dein RD-RAM Beispiel... Also was sollte dann die technische Augenwischerei?

Du solltest dich vielleicht mehr mit der Funktion von Computerhardware befassen.

---------- Beitrag hinzugefügt um 07:40 ---------- Vorheriger Beitrag um 07:24 ----------

Nochmal, was hat das konkret mit meiner Aussage zu tun? Ich sagte doch nichts gegenteiliges. Es ging um die Grafiktechnologie. Da ist Intel eben nach wie vor deutlich hinter AMD. Fertigung ist ein anderes Thema.

Fertigung ist ein wesentlicher Teil der Grafik, zumal diese bestimmt, wie Leistungsfähig ein Chip sein kann.
Du lenkst schon wieder ab. Du sprachst von eDRAM. Das war das Thema. Und dort ist AMDs langfristiges Ziel eben Stacked Memory. Fertigung oder Leistungsaufnahme ist wie gesagt ein anderes Thema.

Ich lenke hier gar nicht ab. RAM muss schneller sein als der Prozessor, quasi schneller als die Zugriffsmöglichkeiten aller "Prozessoren" die darauf zugreifen können. Für Teilbereiche / fixe Programmroutinen ist ein dedizierter Speicher oft besser. Gerade dieses beknackte und überzogene Antialiasing könnte einen Teilbereich gebrauchen , der den Aufwand innerhalb des dafür genutzten Prozessors minimiert und somit schneller ist (Faktor 10 wäre möglich) und mit weniger "Watt" auskommt..

Meinst du die AMD-Technik wäre dann auch noch so stromsparend?

Weiterhin muss man sich darüber Gedanken machen, wenn Intel das so flott aus dem Hut zaubern kann, was wohl die nächste Generation sein könnte.
 
Fertigung ist ein wesentlicher Teil der Grafik
Nein. Fertigung ist Fertigung und hat mit der eigentlichen Architekturlogik nichts zu tun. Beides gilt es strikt zu trennen, wenn man über die Technologie diskutieren will. Du kannst ja auch nicht einfach zB die Implementierung eines JPEG En-/Dekoder Algorithmus als irrelevant abtun und den En-/Dekoder darauf reduzieren, dass er auf Linux langsamer läuft als auf Windows.

RAM muss schneller sein als der Prozessor
Wat? Ach du meinst bestimmt, nachts muss es kälter sein als draussen. :] RAM ist einfach nur einer von mehreren Speicherpools, auf den der Prozessor Zugriff hat. Da muss gar nichts "schneller sein als der Prozessor". Das ergibt Null Sinn. An der Prozessorpipeline hängt eine gesamte Speicherhierarchie. Nicht komplett direkt, teilweise indirekt. Je weiter entfernt von der Prozessorpipeline, desto grösser werden die Speicher (Cache -> RAM -> Festspeicher -> ...). Also desto mehr Daten lassen sich zwischenspeichern. Desto langsamer wird aber auch der Zugriff, bedingt durch höhere Latenzen. Der eDRAM der Iris Pro ist lediglich eine weitere Stufe in der Cachehierarchie, wo Intel bisher den vergleichsweise kleinen L3 hatte. Das Problem ist nun, der eDRAM bietet zwar mehr Kapazität als der L3, mit 128 MB ist er aber trotzdem noch vergleichsweise mickrig für einen VRAM. Also auch mit eDRAM kann Intel den VRAM nicht ersetzen. Man kann nur Zugriffe bis zu einer gewissen Kapazität beschleunigen. Genau hier setzt Stacked Memory an. Kapazitäten eines herkömmlichen RAMs von möglichst mehreren GB, bei vergleichsweise niedrigen Latenzen ähnlich denen eines shared Caches.
 
Zuletzt bearbeitet:
Zurück
Oben Unten