Optimierte MilkyWay@home Applikation

Kommt auf den Zeitbedarf an ....
X64 und 4870 kann ich mit dienen ,ZEit mangelt etwas ;)

Egal meld mich hiermit mal offiziel
Du hast ja die PM bekommen. Ich habe eben gerade nochmal die in der PM verlinkte App ersetzt. Da war ein Tippfehler im von mir dazugepackten GPU-Assembler-Teil. Das konnte also gar nicht laufen :-[
Aber jetzt behauptet AMDs KernelShaderAnalyzer sogar, das wäre ziemlich performant, sobald man genügend Threads drauf losläßt (was im Moment noch nicht der Fall sein dürfte) ;D

Übrigens habe ich mal überschlagen, wieviele Fließkommaoperationen für eine aktuelle WU auf der GraKa ausgeführt werden. Das wären mit der momentanen Version so ziemlich genau 1.3 Billionen double precision Fließkommaoperationen. Ein paar kommen dann noch auf der CPU dazu, aber daß sind vielleicht nur noch mal 1% davon oben drauf oder so.

Wenn man jetzt mal die Laufzeiten auf einem Core i7@3.6GHz (~275s mit HT) nimmt, ergeben sich für die Berechnung auf so einer Highend-CPU eine Rechenleistung von:
1.3 TFlop / 275 s * 8 Threads = 37.8 GFlop/s
Die Peakleistung des Core i7 liegt bei 4 Kerne * 3.6GHz * 4 Flop/Takt = 57.6 GFlops. Man kommt also mit der optimierten Version schon auf zwei Drittel der Peakleistung der CPU. Das dürfte nicht mehr übermäßig viel zu steigern sein, solange nicht grundlegend was am Algorithmus gemacht wird.
Es zeigt außerdem, daß man die GraKas schon ordentlich prügeln muß, um schneller als ein guter Quadcore zu werden. Zwei Drittel der Peakleistung werden mit einer GraKa wohl nicht drin sein. Aber falls alles optimal klappen sollte, könnten ~1 Flop/Takt und so einer 5D-Einheit beim RV770 rauskommen (der hat 160 davon). Das wären dann immerhin 120GFlops für eine HD4870 und damit vielleicht nur noch 15s GPU-Zeit plus zusätzlich vielleicht 10s für die CPU. Aber wenn das noch so aufgebohrt wird, könnte definitiv nur noch 1GPU-Thread gleichzeitig laufen und die Grafikdarstellung auf dem System wird wohl beträchtlich ins Stocken kommen.
Aber wahrscheinlich sollte ich nicht schon jetzt jubeln sondern erstmal abwarten, ob das überhaupt richtig rechnet und auf die ersten Zeiten warten. Wer weiß, was man von den Aussagen dieses KernelShaderAnalyzer-Tools halten kann :]

PS:
Die Übertragung der Anzahl der Operationen von der GPU auf eine CPU ist ein wenig eine Milchmädchenrechnung. Die Zahl stimmt so für die GPU, allerdings kann die CPU auf ein paar Befehle zurückgreifen, die der GPU nicht zur Verfügung stehen und daher mit mehreren Operationen nachgebildet werden müssen. Die Flop-Zahl auf der CPU wird also geringer sein.
 
Bringt es vll schon Vorteile mehrere WUs gleichzeitig mit der GPU zu berechnen statt den Algo zu ändern, oder sind dafür die Teilaufgaben noch zu groß?
 
gibt es auch eine 64Bit Version der MW-Opti ?
 
[MTB]JackTheRipper;3832847 schrieb:
Bringt es vll schon Vorteile mehrere WUs gleichzeitig mit der GPU zu berechnen statt den Algo zu ändern, oder sind dafür die Teilaufgaben noch zu groß?
Nun das mit den mehreren Aufgaben parallel kann man machen, wenn eine einzelne Aufgabe (bestehend aus mehreren parallel ausführbaren "Threads") zu klein sind, um alle Einheiten auszulasten. Man muß ja in einer Aufgabe soviele Threads haben, daß überhaupt alle Einheiten was zu tun bekommen. Falls man das nicht schafft, könnte man versuchen, mehrere Aufgaben parallel zu rechnen (der Support dafür ist aber sagen wir mal dürftig, da müßte man experimentieren). Ansonsten sind große Aufgaben mit sehr vielen Threads eigentlich die Grundvoraussetzung dafür, daß man überhaupt eine ansprechende Leistung erzielt (auch wegen Overhead durch den Aufruf). Und da sollte man auch sicherheitshalber mindestens einen Faktor 10 oder so über das rechnerische Minimum hinausgehen (640? Threads bei der RV770, 256? auf einer RV670 oder 960 Threads bei einer GT200). Dann können auch Verzögerungen durch die Latenzen des Speichers besser versteckt werden.
Wenn ich das richtig verstanden habe, war das ja das Problem von Folding auf einer HD48x0. Die neuen Karten hatten 2,5 mal so viele Einheiten wie die HD38x0-Karten, Folding hat aber einfach mit Aufgabenpaketen mit zu wenigen Threads gerechnet, um die auch nutzen zu können.
Der Nachteil von sehr großen Aufgabenpaketen mit sehr vielen Threads und entsprechend langer Laufzeit ist, daß das Grafiksystem für die Dauer jedes Aufgabenpakets wohl nicht mehr reagiert, die gleichzeitige Grafikdarstellung also sehr träge werden kann.

gibt es auch eine 64Bit Version der MW-Opti ?
Nein. 64Bit bringen bei MW keine deutlichen Vorteile. Außerdem laufen die 32Bit-Versionen auch unter 64Bit Windows (edit: auch mit 64Bit Clients!).
 
Zuletzt bearbeitet:
Hmm, irgendwie klappt das nicht so richtig mit den Rückmeldungen der Tester.
Also falls das noch irgendwer mal auf einem 64Bit Windows mit einer HD38x0 oder HD48x0 ausprobieren will, einfach melden.
 
Morgen versuche ich mich an win 7 64 bit beta. (runter geladen und auf DVD gebrannt ist es schon) Als Grafikkarte läuft bei mir eine 4670. Wenn sich bis dahin kein anderer meldet würde ich zu Testzwecken bereit stehen.
 
sollen wir einen Wink in diesem MW-fred hier
http://milkyway.cs.rpi.edu/milkyway/forum_thread.php?id=551#8264
auf P3D setzen, zu den optimierten apps?
Wenn die mehrzahl der user dann die von 2D und Gipsel geschriebenen apps nutzen würden die credits wahrscheinlich gesenkt werden. was ja auch nicht schlecht ist ;)
wenn keiner ein veto einlegt, werde ich mal auf dem MW board eine message hinterlassen.
 
Ist dieser Banditwolf der dort scheinbar die opt.. App sucht nicht der, der mal am Anfang tierischen Terz wegen eben dieser gemacht hat oder erinnere ich mich falsch ? ;D
 
Ist dieser Banditwolf der dort scheinbar die opt.. App sucht nicht der, der mal am Anfang tierischen Terz wegen eben dieser gemacht hat oder erinnere ich mich falsch ? ;D
Nee war er nicht. Hab im Forum mal nach ihm gesucht. Ist erst später in die Diskussion eingestiegen.
 
Die Links im Forum sind tot. Kann jemand die Dateien nochmals hochladen und im Forum bekannt geben?
 
Ich wär für nen öffentlichen Teil auf der Statspage mit schön viel Werbung für's Team ;)
 
Hallo,
wäre es vlleicht möglich in den ersten Post mal ein How to do mit den aktuellen Optimierungen einzufügen, damit man sich nicht quer durch das ganze Thema lesen muss.
Thx
 
[x] Nein, das würde evtl. zu viele auf MW locken. Andere Projekte sind weit wichtiger.
Soso, bei dem Benefiz-Crunchen plädierst du dafür das jeder selbst entscheiden soll.
Bei MW nimmst entscheidest du das lieber für alle...

Da könnte man ja denken das sich das Fähnchen nach dem Wind dreht. ;)


Jeder kann entscheiden was oder wie er cruncht und ein informatives Posting auf der ersten Seite gehört bei so ellenlangen Threads zum guten Ton.
 
Soso, bei dem Benefiz-Crunchen plädierst du dafür das jeder selbst entscheiden soll.
Bei MW nimmst entscheidest du das lieber für alle...

Da könnte man ja denken das sich das Fähnchen nach dem Wind dreht. ;)


Jeder kann entscheiden was oder wie er cruncht und ein informatives Posting auf der ersten Seite gehört bei so ellenlangen Threads zum guten Ton.

nein. das war nicht meine entscheidung ;), nur eine konsequenz.
 
LOL ... guckt mal dort --> http://milkyway.cs.rpi.edu/milkyway/forum_thread.php?id=551

Travis:

Well, they picked a good time to release this while everyone was away on winter break.

Jetzt seit ihr die bösen :p
Hört sich für mich so an, als ob Travis euch unterstellen würde, das ihr die winderpause ausgenutzt habt, um zu cheaten...

Der typ hat echt einen an der waffel .... :]

EDIT
heavy-Ions@boinc war schneller ;)
 
Zurück
Oben Unten