News AMD Kaveri-APU: Leak bestätigt erneut Starttermin im ersten Quartal 2014 und benennt neue Features [Update]

Halt uns auf dem Laufenden! Ergebnisse bitte gerne auch im Kaveri-Thread posten. Die Frage, ob Dual-Channel DDR3 nicht doch etwas dünn aufgetragen ist (vorerst aus Sicht der Gamer), ist ja weiterhin nicht vollständig geklärt. Im Kaveri-Thread hatte ich ausgeführt, dass die Rechenleistung der Shader im Verhältnis zum maximalen Speicherdurchsatz aus konventioneller Sicht (abseits hUMA) schon arg knapp bemessen ist, verglichen mit Grafikkarten ähnlicher Leistungsklasse. Sollte dies auch für einige GPGPU-Aufgaben gelten? Wir werden sehen...
 
Bei Games ist die Speicherbandbreite der CPU AFAIK noch bei keinem Spiel ein all zu grosser Faktor, die Wichtigkeit der VRAM-Anbindung dagegen ist eigentlich hinreichend bekannt.

Bei GPGPU scheiden sich halt die Geister, da es sehr bandbreitenunabhaengige sowie extrem abhaengige Projekte/Software gibt. IMHO geht da seit OpenCL der Zug schon eher in Richtung Bandbreite, aber das ist nur meine Meinung.

Umbau beginnt jedenfalls in ein paar Minuten, bin selbst mal gespannt :)

-- edit --

So, die ersten Ergebnisse mit dem ASUS Sabertooth 990FX R2.0 und dem FX-6300 laufen so langsam ein.

2x HD7850 @ 8x PCIe2.0 : ~13900s (ca. 75% Auslastung)
1x HD7850 @ 16x PCIe2.0 : ~11600s (ca. 90% Auslastung)

Dadurch, dass nun 3 anstatt vorher 1 CPU-Kern noch das DDR3-1866 mit Rechenaufgaben belasten, ist die performance pro GPU insgesamt minimal (ca. 1%) gesunken, die restlichen ca. 5% gehen IMHO auf die Maximal-Auslastung des PCIe-Systems, da macht sich wohl der Overhead bemerkbar.
Wuerde ich nur eine HD7850 per 16x PCIe2.0 betreiben, wuerde sich die Rechenzeit dort auf ca. 10500s verkuerzen.

Merklicher ist, dass (da ich nun saemtliche PCIe-Lanes absout voll belaste) das System ab und zu minimal lagt, alle anderen per PCIe angebundenen Komponenten muessen sich nun die leergequetschte Bandbreite teilen und das ist selbst auf dem Desktop spuerbar; auch die verbaute SSD hat scheinbar einiges an Performance lassen muessen ;)

Auch das Sabertooth R2.0 bietet nicht 16/16/8 wie ich anfangs geschrieben hatte, sondern nur 16/8/8 (hatte mich verlesen), 32 lanes sind wohl die absolute Grenze des 990FX. Immerhin deutlich besser als vorher mit FM2 und deutlich mehr CPU-Leistung ist nun auch moeglich. Ein 4. PCIe Slot ist zwar vorhanden und mit 4x angebunden (wuerde fuer eine kleine HD7750 reichen), aber mechanisch bei Vollbestueckung nicht nutzbar.

Insgesamt ist die Leistung in dieser Config etwa 30% gestiegen, nicht ganz wie erwartet aber zufriedenstellend. Die fehlenden ~5% schiebe ich auf den Overhead, den 6 GPU-Tasks und 3 CPU-Tasks produzieren.

Den 16x PCIe-Slot koennte ich bestenfalls noch maximal mit einer HD7870 bestuecken, jede schnellere Karte zu betreiben waere hier jedoch immer ineffizienter und wuerde in Anbetracht des Energieverbrauchs kaum lohnen. Denke ich habe mit dieser Config so ziemlich das Optimum erreicht.
Zumindest bei Einstein@Home koennte dieses System nun das schnellste AMD-System sein ;D

Hier der Unterschied bei der HD7850 (GPU 0 16x PCIe2.0 und GPUs 1/2 8x PCIe2.0, Tasks alle zeitgleich gestartet) :
BOINC-3GPU.gif

Nicht gewaltig aber deutlich sichtbar. Zudem muss GPU 0 den Desktop rendern, das geht sicher auch in die Performance mit ein.
 
Zuletzt bearbeitet:
Beispiel aus meinen eigenen Daten :
Einstein Binary Radio Pulsar Search (Perseus Arm Survey)
FX-6300 mit HD7850 (16x PCIe 2.0) : 10500sec fuer 2 Tasks
FX-6300 mit HD7970 (16x PCIe 2.0) : 8900sec fuer 2 Tasks
Obwohl die HD7970 der HD7850 haushoch ueberlegen ist, springt nur 15% mehr Leistung dabei raus.
Die verfuegbaren Auswerte-Tools (Catalyst, GPU-Z etc.) zeigen zwar eine relativ hohe Auslastung, aber die ist - gelinde gesagt - nicht sehr aussagekraeftig.
Die Perseus Werte sind soweit i.O. hab mit jeweils 2 Task auf 2 GPUs sowie 4 Asteriods WUsauf der CPU auch zwischen 7.500 und 9.500 Sek pro WU: http://einstein.phys.uwm.edu/results.php?userid=307387&offset=0&show_names=1&state=0&appid=23
Alles mit Standard Takt, GPU Auslastung zwischen 50% (wenn eine WU wechselt) und 85% wenn beide WU laufen.

Zumindest bei Einstein@Home koennte dieses System nun das schnellste AMD-System sein ;D

Hier der Unterschied bei der HD7850 (GPU 0 16x PCIe2.0 und GPUs 1/2 8x PCIe2.0, Tasks alle zeitgleich gestartet) :
BOINC-3GPU.gif

Nicht gewaltig aber deutlich sichtbar. Zudem muss GPU 0 den Desktop rendern, das geht sicher auch in die Performance mit ein.
Schon möglich, dass es nun der schnellste ist, ich würde den Einsten WUs einen ganzen Kern geben, mit HT macht 0.5 Sinn aber nicht mit CMT. ;)

boinceinsteinasteroid2vuhr.jpg
 
Das mit einem vollen Kern pro GPU Task habe ich beim A10-6700 schon probiert, der Unterschied war kaum messbar (die CPU-Auslastung selbst bei den GPU tasks ist ohnehin ziemlich niedrig).

Das Limit ist eindeutig das PCIe I/O Subsystem, ich kann es aber aufgrund der neuen Plattform nochmal probieren (6 logische CPU-Kerne fuer 6 GPU Tasks).
 
@FalconFly
Ja die CPU Auslastung ist bei Einstein relativ gering, dennoch ist ein voller Kern besser.
Bei meinen zwei HD7970 geht die GPU Auslastung ab 6 Asteroids (CPU) und 4 Einstein WUs merklich nach unten und die Laufzeit nimmt zu.
Ich tippe mal auf die Speicherbandbreite, also CPU-NB Takt und hoher Speichertakt sollten auch was bringen. ;)
 
Noch ne Kleinigkeit, ich stelle in ein paar Stunden mal fuer einen Tag um :

IMHO wuerde es bei HT mehr Sinn machen, einen logischen Kern pro GPU-Task zu reservieren (weniger Leistungspotential pro Kern, da der 2. fast rein virtuell existiert und nur Restperformance nicht ausgelasteter physischer Kerne verwertet), bei CMT nicht umbedingt (da leistungsfaehiger pro realem/physischen Kern und der halben physischen FPU), daher verstehe ich die Logik nicht ganz.

Ich denke der Speichertakt hat nur noch extrem geringen Einfluss in meiner Config, ich koennte auch einen 5GHZ FX-8xxx mit DDR3-2666 einsetzen - die GPUs wuerden nur minimal profitieren, da sie wie Fliegen an der Scheibe am PCIe-Limit kleben (das habe ich ausgiebig getestet). Nur CPU-Tasks koennten noch gut davon profitieren, die brauchen nur CPU-Performance und RAM-Bandbreite.
Ich habe per PCIe-Takt bereits mal vorsichtig overclocking getestet, aufgrund der extremen PCIe-Auslastung nimmt das System bereits wenige MHz mehr ziemlich uebel (CPU und angepasst getaktetes RAM wuerden muehelos mitspielen).
 
Zuletzt bearbeitet:
@FalconFly
Dein FX-6300 hat nicht die gleiche Speicherbandbreite als ein FX-8350. Das eine Modul schlägt mit bis zu 25% mehr Speichbandbreite durch.
Kannst dir mal Sandra anschauen, da gibt es auch ein GP Bandbreiten Test der CPUs und GPUs nutzen kann (openCL).
Bei mir ist der Datentransfer mit CPU höher als GPUs only ~40%:

 
Hm, SiSoft Sandra ist IMHO ein seit langer Zeit vollkommen wertloser Pseudo-Benchmark ohne jeden Realitaetsbezug (vollkommen synthetisch), die Speicherbandbreite des FX-8350 sollte sich von der eines FX-6300 in keiner Weise unterscheiden (bei identischer RAM-Ausstattung).
Bei voller Auslastung sollte eher das Gegenteil der Fall sein, da sich nun 8 Logik-Einheiten das RAM teilen muessen (das ist bereits beim FX-6300 ein deutlich messbarer Faktor im Vergleich zu einem FX-4xxx); die Gesamtleistung steigt natuerlich, aber die effektiv moegliche IPC pro Kern sinkt (sofern nicht sehr RAM-unabhaengige Tasks ausgefuehrt werden).
 
@FalconFly
Ja, ich weiß syntetisch kann man nicht für voll nehmen.
Das habe ich aber schon einkalkuliert bei den 40%. Die orangenen Balken sind GPUs only und die roten CPUs + GPUs (72c)
Zudem spiegeln die Sandra Werte das selbe wieder wie LuxMark 2.0.

IPC, pro Thread sind out! *buck*
 
Also so sehr ich mir die Balken auch ansehe, die CPU-Ergebnisse machen fuer mich keinen Sinn.
K.A. was SiSoft da zusammenrechnet (oder hochrechnet, das macht Sandra sehr gerne) bei den CPUs, ich koennte es mir wie gesagt nur durch die Caches erklaeren (?)

Ich wuerde diesen Balken jedenfalls keine allzu grosse Bedeutung zuschreiben.
Bei DC (fast egal, welches Projekt) ist das Ergebnis i.d.R. exakt umgekehrt, bei stark Speicherlastigen ist es halt besonders ausgepraegt.

Naja, mal sehen wie meine Zahlen morgen aussehen.

PS.
Ich bin zwar auch lange nicht mehr auf dem IPC-Trip pro Kern, aber wenn immer mehr Kerne immer schlechter skalieren (durch welchen Flaschenhals auch immer) ist's am Ende mit der Gesamtleistung ja auch nicht was Wahre und man sorgt entsprechend vor (z.B. durch moeglichst schnelles RAM fuer die 6/8-Kerner etc.).

-- edit --

Was mir gerade noch einfiel :
Wenn ich nur noch GPU-Tasks laufen lasse mit relativ niedriger CPU-Auslastung, muesste der sehr gut gekuehlte FX-6300 eigentlich deutlich haeufiger in den Turbo-Modus schalten.
Das koennte u.U. tatsaechlich ein paar % bringen, ob das aber am Ende die sonst mitlaufenden 3 CPU Tasks wettmacht ?
 
Zuletzt bearbeitet:
@FalconFly
Nicht falsch verstehen, ich will dir kein FX-9570 unterjubeln. Ich kann dir, wenn Interesse besteht, Vergleichswerte liefern. (FX-6300, MSI 970A-G46, 1x XfX R7970.
Bei bedarf auch mit 2x R7970, mal sehen ob der "PCIe 3.0 Switch onboard" Sticker bringt was er andeutet! ;D

P.S. der FX-6300 darf auf 4x4GiB DDR3-1866 CL9 zurückgreifen.
 
Also wenn du mal 2 Einstein (Perseus) Tasks parallel auf die GPU loslassen magst, ich lag mit FX-6300 und HIS HD7970 @ 16xPCIe2.0 bei um die 8600sec (effektiv 4300s/Task), wenn ich das noch recht in Erinnerung habe. Die 5 verbleibenden Cores waren gemischt mit SIMAP und Einstein CPU-Tasks beschaeftigt (2x4GB DDR3-1866 CL9).

Was hat es mit dem PCIe 3.0 Switch auf sich (welches Board) ?
Das ASUS Sabertooth 990FX/GEN3 R2.0 gibt es scheinbar nicht zu kaufen, obwohl es das einzige AMD-Board mit PCIe 3.0 Support waere.

Die FX-8000 Serie hatte ich auch im Auge, mich wegen der 125W TDP und Hauptaugenmerk auf die GPUs aber zum FX-6300 umentschieden. Ausserdem haetten sich dann 5 anstelle 3 CPU-Tasks zusaetzlich um die RAM-Bandbreite bemueht, mit klarer Prioritaet auf weitgehend ungestoerte GPU-Versorgung war mir das zuviel.

-- edit --

Die Ergebnisse sind drin, wie vermutet bringt es nichts.
Im Schnitt arbeiten die GPU-Tasks ca. 3-4% schneller, da RAM und Caches stark entlastet werden und die Kerne durch haeufigeren Turbo-Modus schneller arbeiten (gem. den Daten war die CPU zu ~50% am Performancegewinn anteilig, d.h. die GPUs selbst rechneten effektiv nur knapp 2% schneller).
Dafuer jedoch gehen die fehlenden CPU Tasks in Rechnung und der Leistungsverlust dadurch ist beim FX-6300 etwa doppelt so hoch wie Mehrleistung der 3 GPUs. Wenn weniger Karten im System stecken, verschlechtert sich die Ratio noch weiter.

Fazit : 0.5 CPUs bei Einstein@Home fuer jeweils einen Vishera CPU-Kern ist ideal, ein ganzer Kern pro GPU Task wirkt sich durch die verlorenen CPU Tasks letztendlich wie erwartet negativ auf die Gesamtperformance aus, der minimale Performancegewinn der GPUs macht das selbst bei 3 verbauten Grafikkarten nicht wett.
Flaschenhals bei Einstein auf AMD-Boards ist eindeutig das PCIe-Subsystem bei Karten der HD7850-Klasse oder besser.
 
Zuletzt bearbeitet:
@FalconFly
Moin, bin gerade am testen, leider nur Arecibo WUs für die R7970, Laufzeit geschätzt: 4800 Sek für 2 WUs parallel.
Wenn ich boincsimap auf den anderen 5 Kerne laufen lasse sinkt die GPU Auslastung wieder, also eindeutig Speicherbandbreite.

Ich weiß nicht warum du dich so auf das PCIe Subsystem versteifst, woher kommen den dann die mehr FPS im CrossfireX Mode? über WLAN?

€dit: 3600sek für 2x Arecibo WUs auf einer R7970@Cat. 13.11 beta 8, Boinc Client 7.2.18, Windows Energieprofil: Höchstleistung.
Die weiteren Werte könnt ihr aus unsere Team Liste abrufen: http://einstein.phys.uwm.edu/show_user.php?userid=307387
 
Zuletzt bearbeitet:
Die Zeiten hoeren sich normal an, und wenn du CPU-Tasks dazu nimmt, verlieren die GPU-Tasks performance. Das ist auch normal und liegt an der Speicherbandbreite, das habe ich nie in Frage gestellt.

Die Crux sind nicht die paar %, die du durch parallele aktive CPU Tasks verlierst.
Die Crux ist, dass ein vergleichbares intel-System aufgrund 16x PCIe3.0 das ganze mit 7.0.64/Cat13.9 und Standard-Settings in ~3100sec (bzw. 4x in knapp 6000s) schafft, du also auf deiner Platform ca. 30% an Performance der GPU einbuesst. Mit einer noch schnelleren Karte (z.B. R290 Klasse) waere der Unterschied noch groesser.
(mit dem 13.11 Beta8 sind die Ergebnisse nicht 100% vergleichbar, da er scheinbar einige % an OpenCL-Performance bringt)

...und exakt das liegt daran, dass das PCIe-System deiner Plattform komplett ausgelastet ist.

Das ist z.B. auch der Grund, warum User bei Einstein auf intel-Plattformen 4x oder gar 6x Tasks parallel laufen lassen - die Gesamtleistung steigt dann nochmal eine Ecke weiter, selbst auf deutlich schwaecheren Karten wie der HD7970. Unsereins brauch sich ueber mehr als 2 parallele Tasks selbst auf HighEnd-Karten keine Sorgen machen - die Leistung steigt nur noch kaum messbar.

Games lasten den PCIe-Bus lange nicht so aus wie einige GPGPU-Aufgaben und sind fuer PCIe-Auslastung nach wie vor kaum relevant (sonst haette AMD laengst handeln muessen).
 
Zuletzt bearbeitet:
@FalconFly
OK, es sind 2.600sek pro WU mit 2 Task beim FX-6300.
Mal kurz beim FX-8350 geschaut und die beste WU heraus gepickt: http://einstein.phys.uwm.edu/workunit.php?wuid=177329904
1.832sek mit DDR3-2133.
Sicher steigt die Leistung durch mehr "dampf" aber die Karten werden dann auch mit 99% Ausgelastet und das ist mir zu viel, ich nutze das System noch nebenher für allerlei andere Sachen.

AMD TressFX baut auf GPGPU auf, da rutschen auch mal kurz 100% mehr FPS aufn Schirm mit einer 2ten Karte, egal ob PCIe 2.0 oder 3.0 x16.
Die kleinen Intel haben auch nur 2x8 Lanes PCIe 3.0, trotzdem skaliert CrossfireX mit HighEnd Karten sehr gut. *noahnung*
 
Oh, die beste WU raussuchen geht bei Einstein nicht, weil es auch einige WorkUnits mit deutlich weniger GFlops gibt (im BOINC Manager auch anzeigbar).

Im Schnitt (CPU Time) ist dein FX-8350 nicht schneller pro Task als mein FX-6300 (und das trotz 4GHz Grundtakt vs. meinen 3,5GHz, Vergleich mit Perseus CPU runtimes).
( hier mein Host zum direkten Vergleich )

Meine 16x PCIe 2.0 HD7850 macht dort ca. 11500s/2 Tasks, deine deutlich staerkere HD7970 ca. 8200s/2 Tasks, obwohl sie ne ganze Ecke schneller koennte (bis runter auf ca. 6400s).

TressFX scheint dann ziemlich PCIe-unabhaengig zu sein, wie die viele andere Anwendungen oder Spiele auch, zudem entspricht 8x PCIe 3.0 ganz grob 16x PCIe 2.0. Fuer sehr viele Anwendungen mehr als ausreichend, nicht jedoch fuer Einstein (oder POEM, was ich noch selbst testen muss).

Die "lession learned" ist einfach nur :
Die Beschraenkung von AMD auf PCIe 2.0 zeigt jetzt die ersten Auswirkungen im GPGPU-Bereich.

So, ich geh jetzt mal ein paar Speichertimings optimieren, das Sabertooth 990FX R2.0 scheint nur den ersten JEDEC Eintrag aus dem SPD-ROM auszulesen; u.U. muss ich die timings der abgelegten XMP-Profile selbst setzen.
- edit -
Ha, sowas rieche ich doch durch's geschlossene Gehaeuse - hatte mal wieder den richtigen Riecher, jetzt rennt das System endlich mit voller Performance... Mal sehen, ob damit nochmal ein Prozent drin ist *g*
 
Zuletzt bearbeitet:
@FalconFly
Ich kann dich schon verstehen, aber die meisten WUs laufen nun mal wenn der PC genutzt wird. (Video, Musik, Office)
Das Rauspicken diente nur dazu eine ungestörte WU zu finden, ;)
Wenn ich bei Perseus schaue, ist das System ja nicht so weit entfernt von den 6.200sek: http://einstein.phys.uwm.edu/workunit.php?wuid=177927351
Trotz gleichzeitiges Flash Videos schauen.

Was mich an deiner Theorie stört, wenn PCIe 2 schon bremsen sollte, was es teilweiße tut, aber nicht in dem Maße wie du dir das vorstellst, warum bringen neue Treiber so ein markantes Leistungs +
 
Overhead ist ueberall - wenn im Treiber einer mit Bremsklotz steckte, dann ist er jetzt einfach durch weitere Optimierung abgemildert.

PS.
Diese Perseus WU lief wahrscheinlich mit einer Arecibo WU zusammen, das ist im Nachhinein kaum nachvollziehbar (ich sehe jedenfalls kein Pairing, sodass es sehr wahrscheinlich ist).
Daher ist es nicht 100% vergleichbar, eine Workunit ist zudem allein keine Referenz. Realistischer ist ein Durchschnitt eines gesamten Tages, leider hast du nur sehr wenige Perseus Workunits mit denen ich vergleichen koennte. Schwierig, da ein realistisches Mittel herauszubekommen.
(Vergleichsdaten mit dem neuen Treiber auf einer intel-Plattform waere jetzt spannend zu haben - ich denke naemlich, dort ist es analog ebenfalls schneller geworden, sodass sich an meinen Feststellungen nichts aendert)

Das mit dem Treiber ist jedenfalls sehr interessant, das sieht sehr vielversprechend aus. Hoffe der wird bald released :)

PPS.
Meine Analysen und die daraus gewonnenen Erkenntnisse muss niemand teilen, aber sie sind von anderen sehr erfahrenen Usern bestaetigt worden.

Es sollte sich nur niemand wundern, wenn bei I/O-Intensiven Projekten auf einer AMD PCIe2.0-Plattform in eine sehr schnelle GPU investiert wird und die Performance weit unter dem erwarteten Potential liegt...

- edit -
Ich hatte ueber Nacht zum Test mal eine GPU einfach deaktiviert.
Das Ergebnis : die 2 verbliebenen GPUs zogen gleich um satte 10% in der Leistung an, da der sonst vollgequetschte PCIe-Bus deutlich entlastet wurde...
 
Zuletzt bearbeitet:
Zurück
Oben Unten