Seti und Athlon64 mit SSE2 - 2. Versuch

Jojo4u

Commander
Mitglied seit
05.06.2002
Beiträge
187
Renomée
1
Gestern, nachdem ich die News auf der Hauptseite gelesen hatte, hat es mich gepackt und ich wollte dem Athlon 64 auch SSE2 spendieren. Insbesondere, weil in den Beispielen in der C't oder auch im Web immer mit dem /QxW Flag erfolgreich gearbeitet werden konnte.
Ich hatte mehrere Fehler in den Compilerflags von Tetsuji Maverick Rai (TMR) ausgemacht. Diese hat er auch erkannt, allerdings noch nicht die Windows-Binaries korrigiert weil sie noch vom 08.05. stammen.

Die TMR Versionen haben folgende Flags:
seti-p4-no-sse3.zip /G7 /QaxN /QxN
generic-sse2.zip /QaxN /QxN
dazu /G3 /Qipo

Die Fehler sind folgende:
1. /G7 ist default an - also um es auszuschalten muss man explizit z.b. /G6 nehmen.
2. /Qax... optimiert mit zusätzlichen Code auf eine Platform. Das Program bleibt damit kompatibel zu älteren CPUs. Aber /Qx... erstellt nur einen Codepfad. Beide Optionen gleichzeitig machen keinen Sinn.
3. /QxN hat eine Abfrage nach einen P4 Prozessor drin und verweigert die Ausführung bei einem Athlon! Allerdings meckert die Exe bei meinem Athlon XP nicht rum.

AMD hat Empfehlungen veröffentlicht:
http://www.amd.com/us-en/assets/content_type/white_papers_and_tech_docs/32035.pdf
AMD empfiehlt /O3 /QxW /Qipo und damit auch implizit /G7

Ich habe mich hingesetzt und mit dem V8.1 Compiler neue Binaries compiliert.
Meine Flags für alle 3 Programme (BOINC, FFTW, SETI) sind daher:
setiathome_4.11_windows_jo-athlon64-sse2_1105-1.rar /O3 /G7 /QxW /Qipo /Ot

O3: agressivere Optimierung, impliziert /Og /Os /Oy /Ob1 /Gs
G7: optimiere für P4+, kompatibel zu älteren
QxW: optimiere für P4 inkl. SSE, nicht kompatibel zu älteren, ohne Abfrage
Qipo: "interprocedural" Optimierungen
Ot: bevorzuge bei einigen wenigen Möglichkeiten Schnelligkeit vor Codegröße

So, in Ermangelung eines Athlon 64, bitte ich mal jemanden einfach das neue Programm herunterzuladen und zu testen. Dafür einfach Doppelklick auf setiathome_4.11_windows_jo-athlon64-sse2_1105-1.exe und er rechnet die work_unit.sah durch. Ein result.sah sollte erscheinen und das Programm im Taskmanager sichtbar sein.
Das Ganze mal zum Vergleich auch mal bitte mit seti-p4-no-sse3.zip.

Je nach Zusammenspiel mit BOINC ist es vielleicht nötig, einzelne Teile nicht mit SSE2 zu kompilieren. Dafür stehe ich dann bereit.

erster thread: http://setiweb.ssl.berkeley.edu/forum_thread.php?id=14378
aktueller zweiter thread: http://setiweb.ssl.berkeley.edu/forum_thread.php?id=14557
meine Binary: http://home.arcor.de/jojo4ubin/seti
 
Hi,

das Programm scheint zu arbeiten auf dem Athlon 64 :D Zumindest nimmt er sich 99% Rechenzeit und erstellt auch wie er soll die result.sah. Werde nun mal prüfen, wie schneller er ist. Stay tuned :)
 
ich habe es auch mal getestet, aber die zeit, kann irgendwie nicht stimmen

<time>2451606.85934</time> *noahnung*

das wären ja 681 Stunden :o

vermute um 2 Stunden, habe aber nicht die genaue Zeit genommen

mfg
Sir Ulli
 
Soll das die geschätzte Zeit sein?


Ich habe schon 2 fertig:
1:04
1:18

Die erste war sicherlich ne sehr schnell, aber wenn er sich auf 1:15 einpendelt, dann ist das ca. 10min schneller als der P3-sse Client :-)

Schauen wir mal was er so in der Nacht crunched.
 
Zero2Cool schrieb:
Soll das die geschätzte Zeit sein?


Ich habe schon 2 fertig:
1:04
1:18

Die erste war sicherlich ne sehr schnell, aber wenn er sich auf 1:15 einpendelt, dann ist das ca. 10min schneller als der P3-sse Client :-)

Schauen wir mal was er so in der Nacht crunched.

wie hast du die Version installiert,

einfach die Setiathome_4.11_windows_intelx86.exe mit der Version von Jojo4u ersetzt

mfg
Sir Ulli
 
ja, aber die geänderte app_info.xml nicht vergessen.

Jojo4u hat ja den Namen geändert. Kann man zwar auch ändern, aber so behält man wenigstens den Überblick bei den zig Clients :-)

PS: habe jetzt grad die Test-WU am laufen, in ca. 1h sollte die fertig sein.
 
Zuletzt bearbeitet:
ich lass es auch mal die Nacht durchlaufen, mal sehen

Backup wurde erstellt, sollte also nicht alzuviel passieren

Jojo4u hat ja den Namen geändert. Kann man zwar auch ändern, aber so behält man wenigstens den Bberblick bei den zig Clients :-)

ja das stimmt...

mfg
Sir Ulli
 
Bis jetzt läuft er , ich teste gerade.
Ergebniss poste ich dann.

Greetz Malcom
 
Malcom schrieb:
Bis jetzt läuft er , ich teste gerade.
Ergebniss poste ich dann.

Greetz Malcom

ja danke

ich poste dann morgen auch mal meine Ergebnisse, immer gut wenn mehrere Leute paralell sowas testen. :D

mfg
Sir Ulli
 
Also die Test-WU hat komischerweise bei mir 1:36 (1,605h) benötigt.
Muß ich wohl die Test-WU noch mal mit dem P3-SSE Client laufen lassen :-/

@Ulli: hattest du die Test-WU schon mal mit dem P3-sse Client laufen lassen?
 
Zero2Cool schrieb:
Also die Test-WU hat komischerweise bei mir 1:36 (1,605h) benötigt.
Muß ich wohl die Test-WU noch mal mit dem P3-SSE Client laufen lassen :-/

@Ulli: hattest du die Test-WU schon mal mit dem P3-sse Client laufen lassen?
nee

wie es zur zeit aussieht, gibt es keine groosse Verbesserung

scheint das der P3 Client schon super war

alles andere morgen, wenn die ersten WUS durch sind

mfg
Sir Ulli
 
wie ich schon vermutet habe

errste WU in 1:30

scheint nicht viel zu brringen

mfg
Sir Uli
 
moin,

also ich muß sagen das er bei mir doch noch etwas heraus holt.
Die tollen Zeiten am Ende ;-)

Ich habe jetzt mal die Test-WU auf beiden Clients (P3-sse , A64-sse2) laufen lassen

P3-SSE: 1:45
A64-SSE2: 1:36

Was ich aber komisch finde, ich hatte bisher bei beiden Clients keine WU welche solange wie die Test-WU benötigte :-/ Eigentlich sollte eine Test-WU doch eigentlich die Durchschnittliche Zeit benötigen, und nicht viel mehr.

Hier jetzt mal alle meine Zeiten von der Nacht, alle ca 20min schneller als die Test-WU
1:18
1:16
1:16
1:11
1:11

Ergibt einen Druchschnitt von ca. 1:14
Also ich würde das als gelungen bezeichnen.

@Ulli: kann auch sein, das mein A64 mehr davon profitiert, weil er ja schließlich mit 2565 MHz läuft.

ciao
Zero
 
Zuletzt bearbeitet:
Morgen

Also ich habe den Client auch über Nacht laufen lassen und habe im Schnitt auch so um die 1:18.

Vorher hatte ich ca. 1:25.

Ich werde das ganze noch weiter beobachten , und dann schauen wie sich das entwickelt.
 
Hallo allerseits,

um verlässliche Zahlen zu bekommen, habe ich ebenfalls die Bench-WU durchlaufen lassen. Ergebnis:

P3-SSE: 6803 s
A64-SSE2: 6344 s

Nicht die Welt, aber spürbar.

Was mich nur irritiert hat - und darum hat es etwas länger gedauert: der a64-Client ist mir bei der Berechnung der Bench-WU zwei Mal bei exakt 97% abgestürzt. Er ließ sich dann per Doppelklick wieder starten und hat die WU auch fertig gerechnet, als wäre nichts gewesen. Aber ist der Absturz 2x bei 97% ein Zufall? Naja, werde den Client jetzt mal in BOINC integrieren und sehen, was dabei heraus kommt :)

@Jojo4u: danke für Deine Mühe :D
Vielleicht wäre es ja noch möglich, für die Venice/San-Diego User einen A64-Client mit SSE3 zu basteln? :D
 
Bei mir ist er ohne Problem durchgelaufen.

Aber auch bei Nero fällt mir der enorme Unterschied der Test-WU zu den normalen WUs auf :-/

Würde dieser A64-SSE2 Client eigentlich auch auf einem Pentium-M (Centrino) laufen?
 
Zuletzt bearbeitet:
Hallo Leute, vielen Dank für eure Tests. Aus dem Absturz kann ich mir leider keinen Reim machen.
Ich hoffe ihr habt das Resultat der Test Unit noch? Dann vergleicht es mal mit
home.arcor.de/jojo4ubin/seti/reference_result_unit.sah
Diff Programm: home.arcor.de/jojo4ubin/seti/diff.exe

Momentan kämpfe ich mit dem BOINC Clienten für den Athlon XP. Der will bei mir partout nicht auf die 3000 Dhrystone kommen, die TMRs Mod erreicht. Momentan bin ich bei 2850.

Im Laufe des Tages werde ich noch eine BOINC Version mit SSE2 bereit stellen. Den Boinc-Manager konnte ich auch schon kompilieren.

SSE3 ist auch in Planung.

Der Pentium-M sollte auch gut laufen, dafür gibt es aber auch eine speziell optimierte Version von TMR.
 
Zuletzt bearbeitet:
Die Pentium-M Version hat bei mir aber nur ein paar Minuten gebracht.
Könnte ja sein, das deine schneller ist ;)
 
läuft bis jetzt ohne jeden Absturz, Zeiten

1:22
1:47
1:39
1:24
1:49

mit nen Athlon64 3.200+ "Newcastle", nicht OC

mal weiter beobachten

mfg
Sir Ulli
 
ich weiß voll uncool von mir aber bin irgendwie nicht so der typ der alles gleich versteht *noahnung*


also funzt das mit dem BOINC client ??? wenn ja wie?? so wie die anderen optimierten versionen ?? also einfach in den projekt ordner rein und das wars ???
 
Jojo4u schrieb:
Ja, inklusive der xml-datei.

vielen dank ^^

freue mich schon auf eine neue version die den AMD voll auslastet vieleicht *gg*
den die Pentium heinis haben aufgeholt bei meiner gruppe >_<

vielen dank für den clienten ^^
 
So nachdem der seti/boinc client jetzt scheinbar rund läuft, wird es Zeit auch die Whetstone/Dhrystone zu erhöhen, sonst kommt am Ende ein kleinerer Claimned Score raus (so weit ich das verstehe). Btw, wäre es für den Score nicht am besten, man compiliert einen arschlahmen SETI und einen sauschnellen BOINC?

Dafür gibt es 3 Versionen, einmal V8.1.024 und dann V8.1.026 mit jeweils /G6 bzw /G7. Beide sind mit /QxW nach SSE2 optimiert. Bitte mal beide gegenüber dem TMR-P3 ausprobieren.

Ich habe auch eine entsprechende Version des Boinc-Managers sowie des Screensavers beigelegt, falls jemand darauf Wert legt.

http://home.arcor.de/jojo4ubin/seti/boinc_4.27_windows_jo-athlon64-sse2_package_1205-1.rar
http://home.arcor.de/jojo4ubin/seti/boinc_4.27_windows_jo-athlon64-sse2_package_1205-2.rar
http://home.arcor.de/jojo4ubin/seti/boinc_4.27_windows_jo-athlon64-sse2_package_1205-3.rar
 
interessant für uns wäre eine Version für einen normalen Athlon XP mit SSE :)
 
Zurück
Oben Unten