Milkyway@Home_for_GPU

Twodee · 02.11.2009

@Gipsel

was schätzt du beim GT300?

Gipsel · 02.11.2009

Hmm, also die single precision Variante von MW benötigt wegen dem exp(), sqrt() und der Division in der innersten Schleife schon ein wenig Leistung der SFUs, die das handhabt. Falls man annimmt, daß die da bei der SP-Version nicht einfach Mist gemacht haben (die sollte eigentlich ziemlich genau doppelt so schnell wie jetzt sein), könnte das Handling dieser Operationen eventuell ein Problem sein. Das ist ja für den Compiler bzw. den Scheduler auf nvidias etwas schwieriger zu handhaben, da nicht nur der Durchsatz geringer, sondern auch die Latenz höher ist. Dies ist anders als bei ATIs, da ist die Latenz identisch zu den einfachen Operationen, nur kann eben nur eine der fünf ALUs jeder Einheit die ausführen.

*Falls* das ein Problem ist (kann ich mir eigentlich nicht vorstellen, aber wer weiß), dürfte sich die Situation mit Fermi nicht bessern (außer daß er insgesamt mehr Einheiten hat). Bei GT200 gibt es 2 SFUs für jeweils 8 normale ALUs, bei Fermi nur noch 4 SFUs für 32 ALUs. Damit halbiert sich wohl der Durchsatz für diese Operationen relativ zu den einfachen Instruktionen.

Ansonsten sollte MW locker flockig mit der Anzahl der Einheiten skalieren (wie die ATIs auch). Bei DP gibt es ja meinerseits immer noch den leisen Zweifel, ob wirklich auch die FMAs mit halber DP-Rate ausgeführt werden können (dauerhaft, also nicht nur mal für einen Takt), oder doch nur die Additionen und Multiplikationen. Davon hängt es ein wenig ab, ob Fermi schneller als RV870 wird oder nicht. Von den restlichen Neuerungen des Fermi wird MW eher nicht profitieren. Im Optimalfall (Half-Rate-FMA) erhöht sich die Leistung von Fermi bei DP auf etwa das neunfache einer GTX285. Wenn man mal mit den Speedup-Faktoren rechnet:
9 * 15 = 135 für Fermi @ 1500-1600MHz, also ~25% schneller als eine 5870

Aber ich bin wie gesagt noch skeptisch, da nvidia selber bisher keine größeren Speedups in DP als ~5 von GT200 zu Fermi behauptet hat. Insbesondere daß eine DP-Matrixmultiplikation lediglich auf das 4,2-fache zulegen soll (sind ja nur FMAs), läßt mich noch ein wenig zweifeln (oder das Sample lief mit 700MHz Shadertakt *suspect*

).

PS:
Irgendwie steckt in einer der letzten Versionen noch ein Bug. Früher haben meine Versionen immer ziemlich nah an der Stock-Version gelegen, aber mit der letzten Version vom Projekt ist es jetzt deutlich weiter weg. Wir müssen mal testen, ob sich das nur auf eine WU-Serie bezieht oder die letzten Apps vom Projekt deutlich andere Ergebnisse ausspucken (ich habe gegen eine ältere Stock-Version getestet). Ist nur komisch, daß sowohl meine GPU- als auch CPU-Versionen (die seit 0.20 untereinander identische Ergebnisse ausrechnen) sehr nah an den älteren Stock-Apps liegen *suspect*

. Ich habe bloß keine Lust, die ganzen Stock-App-Versionen zu vergleichen, das dauert ja immer so ewig

Hübie · 03.11.2009

J-R schrieb:
was ist VCD 10. ?
wenn es etwas mit grafik/video kann es durchaus probleme bereiten.

Sowas wie Daemon Tools nur besser (und teurer

)

J-R schrieb:
auch das CCC war schon für probleme beim crunchen mit GPU verantwortlich.

Werds mal deinstallieren.

J-R schrieb:
"Nur per Registry im Run-Menü", warum. ?
vielleicht verhält es sich bei deiner einstellung doch wie ein "Dienst" und macht entsprechend probleme.
normalerweise kann man in Boinc selbst die option anwählen das es automatisch startet.

Die Option ist ja angewählt und macht nix weiter als einen Registry-Eintrag.

J-R schrieb:
die von @ICEMAN erwähnte 6.10.17 ist die boinc version, kein treiber.

Hab ich schon verstanden. ATi ist schon lange bei 6.14.10 angelangt

Twodee schrieb:
"Nur per Registry im Run-Menü" = Auto-run nach benutzeranmeldung und das ist ok.

warum hast du den f10 Parameter drin? Der ist ziemlich scharf, lasse diesen doch mal weg oder stelle ihn höher als 30. Dann sollte es besser laufen.

Den Parameter hab ich zum durchtesten drin. So ganz hab ich aber net geschnallt was der macht *buck*

Wenn ich das richtig geschnallt habe ist das die Anzahl der Pakete pro Sekunde. Weniger wirkt entlastend - dachte ich mir.

Gipsel schrieb:
@Hübie:
Wenn Du WinXP hast, geht nichts oberhalb von Catalyst 9.2.

Siehe mein System

bye Hübie

ps: Dann ist distributed GPU-Computing für mich erstmal (mal wieder) gestorben. Schade. Wo sind die ganzen guten Programmierer dieser Welt nur hin? Werden die mittlerweile für Bugs bezahlt?

DanysAhne · 03.11.2009

Wieso geht eigentlich bei WinXP nix oberhalb Cat 9.2?

Ich hab den Cat 9.10 auf XP und es funzt auch. Es läuft nur nich out-of-the-box.
Im Normalfall kommen häufiger VPU Recovers. Man muß daher die Auslastung der GPU reduzieren.
Ich arbeite z.Z. mit dem Parametern f150 w1.4, d.h. meine 4850 rechnet jetz ca 16 Minuten an ner WU.

Ist zwar nicht optimal, aber besser als extra BS wechseln oder gar nich rechnen.

EDIT: Mist, falsches Projekt. Bei Collatz gehts. MW hab ich gar nich probiert.Sorry

Twodee · 03.11.2009

Hübie schrieb:
Den Parameter hab ich zum durchtesten drin. So ganz hab ich aber net geschnallt was der macht Wenn ich das richtig geschnallt habe ist das die Anzahl der Pakete pro Sekunde. Weniger wirkt entlastend - dachte ich mir.

Da ist falsch, er gibt an, wie oft die GPU pro Sekunde (zum z.b. rendern des windows desktops) entlastet wird [pause pro Sekunde, zwischen 2 Pausen = Paketdauer]. Je niedriger, desto weniger bleibt für sonstige 2D-Anwendungen übrig. Standard ist 30, alles darunter ist nicht zu empfehlen, es sei denn du willst das letzte aus der Graka raus quetschen.

Hübie · 03.11.2009

Okay Danke. Hab ihn testweise auf 45 gesetzt

Sir_Hellsing · 07.11.2009

Guten Morgen,

wenn ich bei MilkyWay@home cuda laufen haben "ruckelt" windows, es ist z.b. unmöglich nebenher ein Video anzuschauen. Im Vergleich dazu bei Collatz Conjecture geht das ohne Probleme. Kann mir jemand helfen was ich da umstellen kann bzw. kann man da was umstellen?

Danke!

ThomsenP3DN · 07.11.2009

Hmh, weiß nicht wie es bei Cuda funktioniert, aber mit meiner 3870 bin ich mit dem Parameter f bis 100 gegangen bis es ohne störende Ruckler in Videos nebenher lief.

Grüße..

Sir_Hellsing · 07.11.2009

ThomsenP3DN schrieb:
Hmh, weiß nicht wie es bei Cuda funktioniert, aber mit meiner 3870 bin ich mit dem Parameter f bis 100 gegangen bis es ohne störende Ruckler in Videos nebenher lief.

Grüße..

Parameter f?

Hab ich was überlesen?

gruenmuckel · 07.11.2009

ThomsenP3DN schrieb:
Hmh, weiß nicht wie es bei Cuda funktioniert, aber mit meiner 3870 bin ich mit dem Parameter f bis 100 gegangen bis es ohne störende Ruckler in Videos nebenher lief.

Grüße..

Wieviel langsamer sind die BErechnungen geworden?

ThomsenP3DN · 07.11.2009

@Sir_Hellsing
Wie gesagt, habe ich keine Informationen darüber welche Einstellungen bei Nvidia-Gpus(Cuda) zur Verfügung stehen. Bei ATI gibt es aber Möglichkeiten, die Auslastung der Karte zu begrenzen und somit anderen Prozessen nötigen Freiraum zu verschaffen.
Evtl. weiß hier jemand mehr über dein Problem bescheid.

@gruenmuckel
Komisch, hatte es damals, ich denke vor Twodees BoincCore mal gegengecheckt und konte definitiv andere Laufzeiten feststellen. Momentan sind beide Einstellungen(f30,f100) nahezu identisch, die Ruckler aber definitv weniger. Ich werde das aber weiter beobachten.

Grüße..

Sir_Hellsing · 07.11.2009

Hat hier niemand eine NVDIA GPU? Und kann mir sagen wie gut Milkyway@Home läuft?

Sabroe SMC · 07.11.2009

Sir_Hellsing schrieb:
Hat hier niemand eine NVDIA GPU? Und kann mir sagen wie gut Milkyway@Home läuft?

Bei Nvidia-CUDA sind keine Parameter möglich. Die auf die die anderen sich beziehen sind die von Gipsel in der ATI App eingebauten Parameter zur optimierung. Die CUDA App wurde von Milkyway selbst geschrieben.
Da die Nvidiakarten bei DB (double Precision) lange nicht so schnell sind wie die ATIs lohnt sich der Einsatz bei Milkyway eigentlich nicht sonderlich. Wirf sie bei Collatz in die Schlacht.

Sir_Hellsing · 07.11.2009

Sabroe SMC schrieb:
Bei Nvidia-CUDA sind keine Parameter möglich. Die auf die die anderen sich beziehen sind die von Gipsel in der ATI App eingebauten Parameter zur optimierung. Die CUDA App wurde von Milkyway selbst geschrieben.
Da die Nvidiakarten bei DB (double Precision) lange nicht so schnell sind wie die ATIs lohnt sich der Einsatz bei Milkyway eigentlich nicht sonderlich. Wirf sie bei Collatz in die Schlacht.

Ok

Hübie · 08.11.2009

Juhu. Milkayway läuft nun auch mit beiden GPUs. Crossfire ist im CCC an. Rest seihe mein System. Danke an alle die geholfen haben!

Hier noch meine app_info.xml

<app_info>
<app>
<name>milkyway</name>
</app>
<file_info>
<name>astronomy_0.20b_ATI_x64_ati.exe</name>
<executable/>
</file_info>
<file_info>
<name>brook64.dll</name>
<executable/>
</file_info>

<app_version>
<app_name>milkyway</app_name>
<version_num>20</version_num>
<flops>1.0e11</flops>
<avg_ncpus>0.05</avg_ncpus>
<max_ncpus>1</max_ncpus>
<coproc>
<type>ATI</type>
<count>2</count>
</coproc>
<cmdline>w1.3 f45 n2 p1 b1</cmdline>
<file_ref>
<file_name>astronomy_0.20b_ATI_x64_ati.exe</file_name>
<main_program/>
</file_ref>
<file_ref>
<file_name>brook64.dll</file_name>
</file_ref>
</app_version>

</app_info>

Zeit für eine WU sind etwa 1:30 Minuten.

bye Hübie

denjo · 18.11.2009

die brauchen aber ganzschoen lang um ihre platten mal wieder an laden zu kriegen ...

Hübie · 19.11.2009

Ja hab auch schon einige Tage keine WUs erhalten...

heavy-Ions@boinc · 20.11.2009

Hey Gipsel, Glückwunsch zum Milkyway-paper

Starke leistung. Von einem "mal schauen was geht" zu einem paper

Aber warum ist denn DA Letztautor

darksun · 24.11.2009

Es gibt wieder WUs.
Und somit läuft es auch auf meiner 4770.

Hübie · 24.11.2009

Oh danke. Werd gleich mal die Möhre anwerfen.

bye Hübie

darksun · 25.11.2009

Und schon hat wieder was den Geist aufgegeben. *noahnung*

Projektseite ist auch nicht mehr erreichbar.

24.11.2009 23:55:03 Milkyway@home Message from server: Server error: feeder not running
25.11.2009 00:08:32 Internet access OK - project servers may be temporarily down.

HGW · 29.11.2009

was sind die optimalen bunkereinstellungen?

im augenblick packt mein bunker "nur" 25 WUs
das ist bei 50 sec pro wu nicht gerade viel

gruenmuckel · 29.11.2009

Keine. Kriegst eh nur 12 WUs pro GPU.

Twodee · 29.11.2009

GPU? Ich dachte pro CPU-Kern? Also max. 48 Wus auf einem Quad, egal wieviele GPUs installiert sind.

HGW · 29.11.2009

danke für die info
.
EDIT :
.
im augenblick rechnet die 4870 eine wu, zeit ~ 50 sec.
kann man auch 2 wu's rechnen lassen und bringt das was?
wenn ja
wo und wie stellt man das ein?

Milkyway@Home_for_GPU

Lord of the Stats, Special, ,

Admiral Special

Grand Admiral Special

Vice Admiral Special

Lord of the Stats, Special, ,

Grand Admiral Special

Lieutnant

Cadet

Lieutnant

Grand Admiral Special

Cadet

Lieutnant

Grand Admiral Special

Lieutnant

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Grand Admiral Special

Commodore Special

Grand Admiral Special

Commodore Special

Grand Admiral Special

Grand Admiral Special

Lord of the Stats, Special, ,

Grand Admiral Special

Ähnliche Themen

Aktuelle Aktionen

Wichtige Links