AMD Opteron 2382 (Shanghai) (Benchmarks)

Ok, habe den Server jetzt mit Windows Server 2003 (R2) x64 SP2 bespielt und ihm einen direkten Zugang ins Internet spendiert. Seit ca. 16:00 Uhr rechnet er bereits an den WU's des Projektes "POEM". Anbei findet ihr auch eine Übersicht der ersten Ergebnisse ...
 
Hi Prometeus.

Erstmal vielen Dank für deinen Einsatz. *great*

Unter welchen Namen rechnet der gute den jetzt bei Poem? Dann können wir die die Rechenzeiten einsehen. Und..*hust*..du hast doch Team P3D gejoined? :w_grins:

MB :w_zipfel:
 
Ok, habe den Server jetzt mit Windows Server 2003 (R2) x64 SP2 bespielt und ihm einen direkten Zugang ins Internet spendiert. Seit ca. 16:00 Uhr rechnet er bereits an den WU's des Projektes "POEM". Anbei findet ihr auch eine Übersicht der ersten Ergebnisse ...
danke für die mühen.
aber irgentwo ist da eine bremse drin bei dir. der shanghai müßte deutlich schneller sein.
z.b. die WU bei dir die 59.84 credits gegranted hat ( die zweite WU in deinem bild von oben die schon berechnet wurde).
WUs dieser Serie sind praktisch gleich, deshalb kann man innerhalb dieser serie die rechenleistung gut vergleichen.
Hier mal ein paar Werte für diese WUs von mir
X4 @2.47Ghz
6137sek
6413sek
6425sek
6430sek
X2 3800 @stock
7902sek
8052sek
Intel Q9450 @2.66Ghz
5036sek
5056sek
4964sek
4945sek
4950sek
5035sek
5059sek
dein Shanghei ist also langsamer als ein "alter" phenom 9550 bei 2.47Ghz. Und deutlich langsamer als ein 45nm quad bei etwa gleichem takt.
Sollte eigentlich deutlich schneller rechnen. Entweder bremst der RAM so, oder er rechnet nicht mit der vollen Ghz? Cool&Quite mal im BIOS deaktiviert?
deine shanghais laufen scheinbar mit angezogener handbremse.
 
Zuletzt bearbeitet:
Ok, habe den Server jetzt mit Windows Server 2003 (R2) x64 SP2 bespielt und ihm einen direkten Zugang ins Internet spendiert. Seit ca. 16:00 Uhr rechnet er bereits an den WU's des Projektes "POEM". Anbei findet ihr auch eine Übersicht der ersten Ergebnisse ...
Pro Core-Vergleich bei 2.6Ghz und 41.46 credit WU:
17% langsamer als ein 12M-Penryn-Quad
bzw.
6% langsamer als ein 6M-Penryn-Quad
 
Zuletzt bearbeitet:
Hi Prometeus.

Erstmal vielen Dank für deinen Einsatz. *great*

Unter welchen Namen rechnet der gute den jetzt bei Poem? Dann können wir die die Rechenzeiten einsehen. Und..*hust*..du hast doch Team P3D gejoined? :w_grins:

MB :w_zipfel:

Derzeit findet ihr mich noch unter dem Namen "Antipatros" (Platz 520). Habe den Account-Namen nun aber auf "Prometeus" abgeändert ..., mal seh'n wie schnell dies umgesetzt wird. Und ja, ich bin dem P3D-Team beigetreten ;-)
.
EDIT :
.

danke für die mühen.
aber irgentwo ist da eine bremse drin bei dir. der shanghai müßte deutlich schneller sein.
z.b. die WU bei dir die 59.84 credits gegranted hat ( die zweite WU in deinem bild von oben die schon berechnet wurde).
WUs dieser Serie sind praktisch gleich, deshalb kann man innerhalb dieser serie die rechenleistung gut vergleichen.
Hier mal ein paar Werte für diese WUs von mir
X4 @2.47Ghz
6137sek
6413sek
6425sek
6430sek
X2 3800 @stock
7902sek
8052sek
Intel Q9450 @2.66Ghz
5036sek
5056sek
4964sek
4945sek
4950sek
5035sek
5059sek
dein Shanghei ist also langsamer als ein "alter" phenom 9550 bei 2.47Ghz. Und deutlich langsamer als ein 45nm quad bei etwa gleichem takt.
Sollte eigentlich deutlich schneller rechnen. Entweder bremst der RAM so, oder er rechnet nicht mit der vollen Ghz? Cool&Quite mal im BIOS deaktiviert?
deine shanghais laufen scheinbar mit angezogener handbremse.

C&Q ist konsequenterweise deaktiviert! Kann also nur sein, dass das RAM an der Stelle dafür sorgt, dass nicht die volle Performance des Shanghai zur Geltung gebracht werden kann. Ist, wie gesagt, auch nur DDR2-667, zudem Registered mit ECC. Ist bedingt dadurch sicher ein gutes Stück langsamer als "normale" ungepufferte Speicher-Lösungen.
Die Speicherkonfiguration ist zudem auf "Independent" (also unganged) eingestellt. Könnte ja, auch wenn ich mir davon nicht allzu viel verspreche, nochmal den "Combined"-Modus einstellen, um nachvollziehen zu können, ob und wieviel Performance das bringt bzw. kostet.

Anbei nochmal die aktualisierte Übersicht der bereits berechneten WU's!
 
Zuletzt bearbeitet:
POEM ist ein denkbar schlechtes Projekt, um die Performance zu vergleichen, da sich die unterschiedlichen WU-Typen sehr stark in der Laufzeit unterscheiden - da kann man schnell durcheinander kommen *suspect*

Wie wär's denn mit Spinhenge oder PrimeGrid, wo die WU-Laufzeiten auf einem System praktisch auf die Sekunde immer gleich sind? *noahnung*
 
@Prometeus

*greater* thx for joining :w_feiern:

Wird vermutlich am Speicher liegen. Trotzdem interessant.
 
POEM ist ein denkbar schlechtes Projekt, um die Performance zu vergleichen, da sich die unterschiedlichen WU-Typen sehr stark in der Laufzeit unterscheiden - da kann man schnell durcheinander kommen *suspect*

Wie wär's denn mit Spinhenge oder PrimeGrid, wo die WU-Laufzeiten auf einem System praktisch auf die Sekunde immer gleich sind? *noahnung*

Werde dann heute mal eines der beiden empfohlenen Projekte ausprobieren!
Du hast nicht zufällig die URL's zu diesen Projekten?
 
POEM ist ein denkbar schlechtes Projekt, um die Performance zu vergleichen, da sich die unterschiedlichen WU-Typen sehr stark in der Laufzeit unterscheiden - da kann man schnell durcheinander kommen *suspect*

Wie wär's denn mit Spinhenge oder PrimeGrid, wo die WU-Laufzeiten auf einem System praktisch auf die Sekunde immer gleich sind? *noahnung*
man muss ja nur wu's mit gleichen credits (die sind fest) vergleichen, die zeiten innerhalb einer serie schwanken dann relativ gesehen genauso wie bei spin.
 
Zuletzt bearbeitet:
POEM ist ein denkbar schlechtes Projekt, um die Performance zu vergleichen, da sich die unterschiedlichen WU-Typen sehr stark in der Laufzeit unterscheiden - da kann man schnell durcheinander kommen *suspect*

Wie wär's denn mit Spinhenge oder PrimeGrid, wo die WU-Laufzeiten auf einem System praktisch auf die Sekunde immer gleich sind? *noahnung*
wenn man nur WU einer serie vergleicht ist das gar kein problem. deshalb hab ich mich ja ganz bewußt auf die 58.94credit WU bezogen.
es ist also sehr wohl gut geeignet um die performance zu vergleichen ;)
 
man muss ja nur wu's mit gleichen credits (die sind fest) vergleichen, die zeiten innerhalb einer serie schwanken dann relativ gesehen genauso wie bei spin.
wenn man nur WU einer serie vergleicht ist das gar kein problem. deshalb hab ich mich ja ganz bewußt auf die 58.94credit WU bezogen.
es ist also sehr wohl gut geeignet um die performance zu vergleichen ;)
Schon, aber man muss sie sich halt erst raussuchen, ehe man vergleichen kann, weil die Serien bunt durcheinander gerechnet werden.

Trotzdem werde ich aus diesen 59,84 Credit-WUs nicht so recht schlau. Auf meinem Phenom X4 9600 @2,3 GHz z.B. dauert so eine WU lediglich 6200 Sekunden. Auf dem Quad-Core Opteron 2356 "Barcelona" aus dem P3D-Cluster dagegen, der ebenfalls mit 2,3 GHz arbeitet, liegen die WU-Zeiten bei den 59,84ern bei über 13500 Sekunden :o Einziger Unterschied ist, dass der in einer Zwei-Sockel-F-Umgebung mit Registered DDR2-667 ECC-RAM läuft, während der Phenom im AM2 mit unbuffered DDR2-800 RAMs arbeitet. Insofern wären die 6600 Sekunden des Opteron 2382 "Shanghai" von Prometeus glatt doppelt so schnell wie der "Barcelona".

An der Anwendung (32-Bit vs. 64-Bit) kann's auch nicht liegen, da es bei Poem nur 32-Bit Apps gibt.

Irgendwas kann da nicht mit rechten Dingen zugehen, daher würde ich wie gesagt auch nochmal ein anderes Projekt gegentesten.
 
Schon, aber man muss sie sich halt erst raussuchen, ehe man vergleichen kann, weil die Serien bunt durcheinander gerechnet werden.

Trotzdem werde ich aus diesen 59,84 Credit-WUs nicht so recht schlau. Auf meinem Phenom X4 9600 @2,3 GHz z.B. dauert so eine WU lediglich 6200 Sekunden. Auf dem Quad-Core Opteron 2356 aus dem P3D-Cluster dagegen, der ebenfalls mit 2,3 GHz arbeitet, liegen die WU-Zeiten bei den 59,84ern bei über 13500 Sekunden :o Einziger Unterschied ist, dass der in einer Zwei-Sockel-Umgebung mit Registered DDR2-667 ECC-RAM läuft, während der Phenom mit unbuffered DDR2-800 RAMs arbeitet. Insofern wären die 6600 Sekunden des Opteron 2382 "Shanghai" von Prometeus glatt doppelt so schnell wie der "Barcelona".

Irgendwas kann da nicht mit rechten Dingen zugehen, daher würde ich wie gesagt auch nochmal ein anderes Projekt gegentesten.
Bisschen viel Unterschied ... ich frag mal vorsichtshalber nach: Node-Interleave ist im Bios deaktiviert, oder ?

ciao

Alex

P.S: Unganged passt schon, das ist bei 4 parallel laufenden Boinc threads definitiv besser :)
 
Zuletzt bearbeitet:
Bisschen viel Unterschied ... ich frag mal vorsichtshalber nach: Node-Interleave ist im Bios deaktiviert, oder ?

ciao

Alex

P.S: Unganged passt schon, das ist bei 4 parallel laufenden Boinc threads definitiv besser :)

Node-Interleave ist grundsätzlich ausgeschaltet. Kostet ja nur unnötig Performance.
 
Schon, aber man muss sie sich halt erst raussuchen, ehe man vergleichen kann, weil die Serien bunt durcheinander gerechnet werden.

Trotzdem werde ich aus diesen 59,84 Credit-WUs nicht so recht schlau. Auf meinem Phenom X4 9600 @2,3 GHz z.B. dauert so eine WU lediglich 6200 Sekunden. Auf dem Quad-Core Opteron 2356 "Barcelona" aus dem P3D-Cluster dagegen, der ebenfalls mit 2,3 GHz arbeitet, liegen die WU-Zeiten bei den 59,84ern bei über 13500 Sekunden :o Einziger Unterschied ist, dass der in einer Zwei-Sockel-F-Umgebung mit Registered DDR2-667 ECC-RAM läuft, während der Phenom im AM2 mit unbuffered DDR2-800 RAMs arbeitet. Insofern wären die 6600 Sekunden des Opteron 2382 "Shanghai" von Prometeus glatt doppelt so schnell wie der "Barcelona".

An der Anwendung (32-Bit vs. 64-Bit) kann's auch nicht liegen, da es bei Poem nur 32-Bit Apps gibt.

Irgendwas kann da nicht mit rechten Dingen zugehen, daher würde ich wie gesagt auch nochmal ein anderes Projekt gegentesten.
ich glaube eher das das an der 59,84 Credit-WUs liegt. die schwanken bei mir auch sehr stark [bis zu 3000 sekunden]. vergleicht doch mal die ~40+x credits-wus, die sind stabiler.
 
Oder halt doch mal Spinhenge. die sind nicht so speicherintensiv und wirklich gut vergleichbar, da hat nero schon recht.
 
mhm. spin ist weder speicherintensiv noch nutzt es SSE(x), und der Ph-2 soll ja gerade dort aufgeholt haben. poem wäre speicherlastig, einstein SSE lastig.
Naja, wenn er eh Zeit hat, dann halt gleich alle Projekte je einen Tag laufen lassen, dann hat man genügend Vergleichswerte :)
Ich schmeiß mal noch QMC in den Ring, sowohl SSE als auch RAM lasting :)
http://qah.uni-muenster.de/usernotes.php

ciao

Alex
 
Schon, aber man muss sie sich halt erst raussuchen, ehe man vergleichen kann, weil die Serien bunt durcheinander gerechnet werden.

Trotzdem werde ich aus diesen 59,84 Credit-WUs nicht so recht schlau. Auf meinem Phenom X4 9600 @2,3 GHz z.B. dauert so eine WU lediglich 6200 Sekunden. Auf dem Quad-Core Opteron 2356 "Barcelona" aus dem P3D-Cluster dagegen, der ebenfalls mit 2,3 GHz arbeitet, liegen die WU-Zeiten bei den 59,84ern bei über 13500 Sekunden :o Einziger Unterschied ist, dass der in einer Zwei-Sockel-F-Umgebung mit Registered DDR2-667 ECC-RAM läuft, während der Phenom im AM2 mit unbuffered DDR2-800 RAMs arbeitet. Insofern wären die 6600 Sekunden des Opteron 2382 "Shanghai" von Prometeus glatt doppelt so schnell wie der "Barcelona".

An der Anwendung (32-Bit vs. 64-Bit) kann's auch nicht liegen, da es bei Poem nur 32-Bit Apps gibt.

Irgendwas kann da nicht mit rechten Dingen zugehen, daher würde ich wie gesagt auch nochmal ein anderes Projekt gegentesten.

Habe jetzt von http://boinc.fzk.de/poem auf http://spin.fh-bielefeld.de/ umgestellt!
Mir war sogleich aufgefallen, dass jetzt max. 1 Core mit Rechenlast bedacht wird,
d.h. dass nur ein Prozess zur Zeit läuft! Ist das normal?

Die erwartete Rechenzeit für die erste WU wird mit ca. 40 Minuten angegeben!
 
Nach 20 Minuten bekommst du mehr Arbeit bei Spinhenge. POEM ist übrigens extrem vom Speichertakt abhänging nach meinen Erfahrungen. Deswegen stelle ich nach und nach auch die Speichereinstellungen als Screenshot bei den Clustersystemen Online. Bei POEM sollte mehr Cache, bei guter Vorhersage, ebenfalls sich bemerkbar machen.

TAL9000
 
Seit Freitag-Nachmittag rechnen die Shanghai's nun an diesem Projekt und haben bisher knapp 200 WU's berechnet. Die durchschnittliche Berechnungsdauer für eine WU liegt dabei stets im Bereich von 34-35 Minuten. Da mir hier die Möglichkeit des Vergleichs mit anderen Hardware-Konfigurationen nicht gegeben ist, wäre es erforderlich, dass jemand aus dem Forum dazu mal ein paar Vergleichswerte einstellt bzw. die Bewertung der mit den Shanghai's erzielten Ergebnisse kommentiert ...

Die Ergebnisse sind hier einsehbar: http://spin.fh-bielefeld.de/show_user.php?userid=63799 !!!
 
hab momentan keine akt. Vergleichswerte aber:
ein AMD Athlon64 3200+ (Venice E6, 2,2Ghz , S754, 512KB-L2) braucht mit MCM 3.12 x64 etwa 61min pro Unit

ein C2D t7600 (http://spin.fh-bielefeld.de//show_host_detail.php?hostid=52365)
braucht etwa 50min pro Unit

auch vglb. etwas vom p3d Cluster
http://spin.fh-bielefeld.de//results.php?hostid=127907


Intel xeon X7350 vglb (http://spin.fh-bielefeld.de/show_host_detail.php?hostid=142940)

also sind 34min echt gut !


ps
bei mir kommt Intel nur als 1 oder 10GB-Netzwerkkarte rein - sonst nich !
 
Zuletzt bearbeitet:
Zurück
Oben Unten