Hilfe beim GPU Clienten

heavy-Ions@boinc

Grand Admiral Special
Mitglied seit
03.10.2007
Beiträge
3.405
Renomée
23
  • Spinhenge ESL
  • Docking@Home
  • BOINC Pentathlon 2011
  • BOINC Pentathlon 2012
Ich brauche mal eure Hilfe.
Meine 4670 kann kaum eine WU am stück zuende rechnen. Entweder schmeisst es mit einem VPU recover, oder neuerdings mit "unstable machine"
hier mal der aktuelle fall aus dem logfile
[02:09:02] Completed 17%
[02:10:27] mdrun_gpu returned
[02:10:27] NANs detected on GPU
[02:10:27]
[02:10:27] Folding@home Core Shutdown: UNSTABLE_MACHINE
[02:10:31] CoreStatus = 7A (122)
[02:10:31] Sending work to server
[02:10:31] Project: 5740 (Run 1, Clone 30, Gen 682)
[02:10:31] - Error: Could not get length of results file work/wuresults_05.dat
[02:10:31] - Error: Could not read unit 05 file. Removing from queue.
[02:10:31] - Preparing to get new work unit...
[02:10:31] + Attempting to get work packet
[02:10:31] - Connecting to assignment server
[02:10:32] - Successful: assigned to (171.64.65.102).
[02:10:32] + News From Folding@Home: Welcome to Folding@Home
[02:10:32] Loaded queue successfully.
[02:10:34] + Closed connections
[02:10:39]
[02:10:39] + Processing work unit
[02:10:39] Core required: FahCore_11.exe
[02:10:39] Core found.
[02:10:39] Working on queue slot 06 [November 8 02:10:39 UTC]
[02:10:39] + Working ...
[02:10:39]
[02:10:39] *------------------------------*
[02:10:39] Folding@Home GPU Core - Beta
[02:10:39] Version 1.24 (Mon Feb 9 11:00:12 PST 2009)
[02:10:39]
[02:10:39] Compiler : Microsoft (R) 32-bit C/C++ Optimizing Compiler Version 14.00.50727.762 for 80x86
[02:10:39] Build host: amoeba
[02:10:39] Board Type: AMD
[02:10:39] Core :
[02:10:39] Preparing to commence simulation
[02:10:39] - Looking at optimizations...
[02:10:39] - Created dyn
[02:10:39] - Files status OK
[02:10:39] - Expanded 70166 -> 360060 (decompressed 513.1 percent)
[02:10:39] Called DecompressByteArray: compressed_data_size=70166 data_size=360060, decompressed_data_size=360060 diff=0
[02:10:39] - Digital signature verified
[02:10:39]
[02:10:39] Project: 5740 (Run 1, Clone 30, Gen 682)
[02:10:39]
[02:10:40] Assembly optimizations on if available.
[02:10:40] Entering M.D.
[02:10:46] Tpr hash work/wudata_06.tpr: 4154077424 3101063276 3302159938 2598870300 2346220079
[02:10:46] Working on Protein
[02:10:47] Client config found, loading data.
[02:10:47] Starting GUI Server
[02:18:45] Completed 1%
[02:25:11] Completed 2%
[02:32:00] Completed 3%
[02:34:35] mdrun_gpu returned
[02:34:35] NANs detected on GPU
[02:34:35]
[02:34:35] Folding@home Core Shutdown: UNSTABLE_MACHINE
[02:34:40] CoreStatus = 7A (122)
[02:34:40] Sending work to server
[02:34:40] Project: 5740 (Run 1, Clone 30, Gen 682)
[02:34:40] - Error: Could not get length of results file work/wuresults_06.dat
[02:34:40] - Error: Could not read unit 06 file. Removing from queue.
[02:34:40] EUE limit exceeded. Pausing 24 hours.
[07:18:05] + Working...
bei collatz lief sie jetzt ~2 wochen am stück völlig problemlos. Nur bei folding meckert die karte rum.
Ich darf z-B nicht das "display" einschalten, dann kommt sofort der vpu recover.
Scheinbar fährt der Lüfter der Karte auch nicht hoch, zumindest ist er leiser als bei collatz.

neue arbeit ordert der client jetzt scheinbar auch nicht an

12:22:15] - Ask before connecting: No
[12:22:15] - User name: heavy-ions (Team 34361)
[12:22:15] - User ID: 29AFAEC16C12B7C2
[12:22:15] - Machine ID: 2
[12:22:15]
[12:22:15] Loaded queue successfully.
[12:22:15] Initialization complete
[12:22:15] - Preparing to get new work unit...
[12:22:15] + Attempting to get work packet
[12:22:15] - Connecting to assignment server
[12:22:17] + No appropriate work server was available; will try again in a bit.
[12:22:17] + Couldn't get work instructions.
[12:22:17] - Attempt #1 to get work failed, and no other work to do.
Waiting before retry.
[12:22:22] + Attempting to get work packet
[12:22:22] - Connecting to assignment server
[12:22:23] + No appropriate work server was available; will try again in a bit.
[12:22:23] + Couldn't get work instructions.
[12:22:23] - Attempt #2 to get work failed, and no other work to do.
Waiting before retry.
[12:22:44] + Attempting to get work packet
[12:22:44] - Connecting to assignment server
[12:22:45] + No appropriate work server was available; will try again in a bit.
[12:22:45] + Couldn't get work instructions.
[12:22:45] - Attempt #3 to get work failed, and no other work to do.
Waiting before retry.
[12:23:13] + Attempting to get work packet
[12:23:13] - Connecting to assignment server
[12:23:14] + No appropriate work server was available; will try again in a bit.
[12:23:14] + Couldn't get work instructions.
[12:23:14] - Attempt #4 to get work failed, and no other work to do.
Waiting before retry.
weiß einer von euch rat?
 
53°C bei 0 Lüfterdrehzahl
gpu-z zeigt mir aber im gegensatz zu CCC nur 750Mhz core frequenu und 850mhz RAM an.
GPU-Load ist auch nur bei 54%?!
 
Zuletzt bearbeitet:
Bei mir sieht das Log File gleich aus mit meinen Ati4870, ich würde auch mal die Temperaturen anschauen, den mit 54% Auslastung und 0% Venti ist 53°C zu wenig, vermutlich arbeitete die Karte wirklich nicht richtig. Ich musste schon mal eine Windows neu installieren bis es dann mal richtig stabil lief. Probier doch mal folgendes, Grafig Treiber deinstallieren > Neustart > Neuer Treiber.

Um die Auslastung höher zu bringen musst Du einen 2ten Gpu2 Clienten mit anderer ID Nummer starten
 
Danke schonmal. das mit neu aufsetzten mach ich dann morgen.
hab eben gesehen, er ist wieder bei einer WU ausgestiegen
[18:53:19] Completed 27%
[18:58:14] mdrun_gpu returned
[18:58:14] NANs detected on GPU
[18:58:14]
[18:58:14] Folding@home Core Shutdown: UNSTABLE_MACHINE
[18:58:17] CoreStatus = 7A (122)
[18:58:17] Sending work to server
[18:58:17] Project: 5740 (Run 1, Clone 30, Gen 682)
[18:58:17] - Read packet limit of 540015616... Set to 524286976.
[18:58:17] - Error: Could not get length of results file work/wuresults_08.dat
[18:58:17] - Error: Could not read unit 08 file. Removing from queue.
[18:58:17] - Preparing to get new work unit...
[18:58:17] + Attempting to get work packet
[18:58:17] - Connecting to assignment server
[18:58:19] - Successful: assigned to (171.64.65.102).
[18:58:19] + News From Folding@Home: Welcome to Folding@Home
[18:58:19] Loaded queue successfully.
[18:58:22] + Closed connections
[18:58:27]
[18:58:27] + Processing work unit
[18:58:27] Core required: FahCore_11.exe
[18:58:27] Core found.
[18:58:27] Working on queue slot 09 [November 8 18:58:27 UTC]
[18:58:27] + Working ...
[18:58:27]
[18:58:27] *------------------------------*
[18:58:27] Folding@Home GPU Core - Beta
[18:58:27] Version 1.24 (Mon Feb 9 11:00:12 PST 2009)
[18:58:27]
[18:58:27] Compiler : Microsoft (R) 32-bit C/C++ Optimizing Compiler Version 14.00.50727.762 for 80x86
[18:58:27] Build host: amoeba
[18:58:27] Board Type: AMD
[18:58:27] Core :
[18:58:27] Preparing to commence simulation
[18:58:27] - Looking at optimizations...
[18:58:27] - Created dyn
[18:58:27] - Files status OK
[18:58:27] - Expanded 70166 -> 360060 (decompressed 513.1 percent)
[18:58:27] Called DecompressByteArray: compressed_data_size=70166 data_size=360060, decompressed_data_size=360060 diff=0
[18:58:27] - Digital signature verified
[18:58:27]
[18:58:27] Project: 5740 (Run 1, Clone 30, Gen 682)
[18:58:27]
[18:58:27] Assembly optimizations on if available.
[18:58:27] Entering M.D.
[18:58:33] Tpr hash work/wudata_09.tpr: 4154077424 3101063276 3302159938 2598870300 2346220079
[18:58:34] Working on Protein
[18:58:34] Client config found, loading data.
[18:58:34] Starting GUI Server
[19:05:45] Completed 1%
also wieder diesen mysteriöse
[18:58:14] mdrun_gpu returned
[18:58:14] NANs detected on GPU
was mit "unstable_machine" endet.

Komisch dass er collatz problemlos gecruncht hat.
 
Mit dem Treiber 8.12 waren die Daten, die in GPU-Z angezeigt wurden auch sehr schwammig. Alle paar Stunden gabs einen VPU-Recover. Erst mit 9.10 waren die Anzeigen plausibel und Collatz läuft seit zwei Tagen ohne Probleme. Folding habe ich noch nicht getestet.
 
Ich habe meine HD4890 mit dem Catalyst 9.10 stabil am laufen und hatte auch noch nie einen WU-Abbruch (1000 GPU /4000 RAM Mhz ~60°C GPU ~70°C VRM bei 40- 55% Lüfter )

Den einzigen unstable machine Vorfall den ich hatte, war bei einem gestrigen Experiment 2 NV GPUs unter linux zum folden zu bewegen. Das Problem war aber das Asus A8N-E Motherboard das anscheinend den Versuch nicht überlebt hat (war vorher schon ein Problemkind).
Mit dem 9.10 sollte aber es keine Probleme geben.

lg
 
Ich hatte den 9.9er drauf und gestern diesen wieder deinstalliert und neu installiert. wieder unstable machine.
Ich kann jetzt nochmal den 9.10 probieren, dann bin ich mit meinem latein am ende.
 
http://www.aoaforums.com/forum/windows-linux-smp-clients/46143-folding-home-has-run-into-serious.html#post484472
Anscheinend ist die 4670 allgemein ein Problemkind. Leider schreibt er nicht wo er die Lösung gefunden hat.

Habe das A8N-E wieder zu starten bewegen können aber er will noch immer nicht folden. Kann sich das vielleicht jemand ansehen:
hier lspci:

foldingamd@foldingA64X2G84:~/nvidia0$ lspci
00:00.0 Memory controller: nVidia Corporation CK804 Memory Controller (rev a3)
00:01.0 ISA bridge: nVidia Corporation CK804 ISA Bridge (rev a3)
00:01.1 SMBus: nVidia Corporation CK804 SMBus (rev a2)
00:02.0 USB Controller: nVidia Corporation CK804 USB Controller (rev a2)
00:02.1 USB Controller: nVidia Corporation CK804 USB Controller (rev a3)
00:04.0 Multimedia audio controller: nVidia Corporation CK804 AC'97 Audio Controller (rev a2)
00:06.0 IDE interface: nVidia Corporation CK804 IDE (rev f2)
00:07.0 IDE interface: nVidia Corporation CK804 Serial ATA Controller (rev f3)
00:08.0 IDE interface: nVidia Corporation CK804 Serial ATA Controller (rev f3)
00:09.0 PCI bridge: nVidia Corporation CK804 PCI Bridge (rev a2)
00:0a.0 Bridge: nVidia Corporation CK804 Ethernet Controller (rev a3)
00:0b.0 PCI bridge: nVidia Corporation CK804 PCIE Bridge (rev a3)
00:0c.0 PCI bridge: nVidia Corporation CK804 PCIE Bridge (rev a3)
00:0d.0 PCI bridge: nVidia Corporation CK804 PCIE Bridge (rev a3)
00:0e.0 PCI bridge: nVidia Corporation CK804 PCIE Bridge (rev a3)
00:18.0 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] HyperTransport Technology Configuration
00:18.1 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] Address Map
00:18.2 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] DRAM Controller
00:18.3 Host bridge: Advanced Micro Devices [AMD] K8 [Athlon64/Opteron] Miscellaneous Control
01:00.0 VGA compatible controller: nVidia Corporation G84 [GeForce 8600 GTS] (rev a1)
04:00.0 VGA compatible controller: nVidia Corporation G84 [GeForce 8600GT] (rev a1)
foldingamd@foldingA64X2G84:~/nvidia0$

Hier der Core-Output
[12:20:01] *------------------------------*
[12:20:01] Folding@Home GPU Core
[12:20:01] Version 1.31 (Tue Sep 15 10:57:42 PDT 2009)
[12:20:01]
[12:20:01] Compiler : Microsoft (R) 32-bit C/C++ Optimizing Compiler Version 14.00.50727.762 for 80x86
[12:20:01] Build host: amoeba
[12:20:01] Board Type: Nvidia
[12:20:01] Core :
[12:20:01] Preparing to commence simulation
[12:20:01] - Looking at optimizations...
[12:20:01] DeleteFrameFiles: successfully deleted file=work/wudata_06.ckp
[12:20:01] - Created dyn
[12:20:01] - Files status OK
[12:20:01] - Expanded 67116 -> 348420 (decompressed 519.1 percent)
[12:20:01] Called DecompressByteArray: compressed_data_size=67116 data_size=348420, decompressed_data_size=348420 diff=0
[12:20:01] - Digital signature verified
[12:20:01]
[12:20:01] Project: 5798 (Run 1, Clone 715, Gen 6)
[12:20:01]
[12:20:01] Assembly optimizations on if available.
[12:20:01] Entering M.D.
[12:20:07] Tpr hash work/wudata_06.tpr: 4141923508 3430178726 113794131 385187590 1050736690
[12:20:07]
[12:20:07] Calling fah_main args: 14 usage=100
[12:20:07]
Reading file work/wudata_06.tpr, VERSION 3.1.4 (single precision)
Reading file work/wudata_06.tpr, VERSION 3.1.4 (single precision)
Reading sasa-enabled ir 0 0
Initializing Nvidia gpu library
Run: exception thrown during GuardedRun
[12:20:08] Run: exception thrown during GuardedRun
[12:20:08] Run: exception thrown in GuardedRun -- Gromacs cannot continue further.
[12:20:08] Going to send back what have done -- stepsTotalG=0
[12:20:08] Work fraction=0.0000 steps=0.
[12:20:12] logfile size=4940 infoLength=4940 edr=0 trr=23
[12:20:12] + Opened results file
[12:20:12] - Writing 5476 bytes of core data to disk...
[12:20:12] Done: 4964 -> 1848 (compressed to 37.2 percent)
[12:20:12] ... Done.
[12:20:12] DeleteFrameFiles: successfully deleted file=work/wudata_06.ckp
[12:20:12]
[12:20:12] Folding@home Core Shutdown: UNSTABLE_MACHINE

System Ubuntu 9.10 AMD64
CUDA Driver 2.3 64 bit
CUDA Toolkit 2.3 32 bit
nach diesem Tutorial installiert
http://www.overclock.net/overclock-net-folding-home-team/436453-how-gpu2-folding-linux.html

EDIT:
Board hat sich gerade wieder verabschiedet. Konnte den Post gerade noch abschicken.

Danke im Voraus!
lg
 
Zuletzt bearbeitet:
Wenn der 9.10 Treiber nichts bewirkt werde ich halt erstmal meine graka wieder zu collatz schicken ;)
danke für die hilfe trotzdem.
 
Habt Ihr Rivatuner im Einsatz?

Bei mir hatte ich per Rivatuner die Taktschraube einer GTX260 Stück um Stück höher gedreht.
Nach Stunden, vor dem schlafengehen, per GPU-Z noch mal Temps und Auslastung geprüft, alles ok.
Irgendwann in der Nacht muß es klock gemacht haben, und die Grafikkarte lief nur noch mit halber Kraft.
Also die Taktschraube wieder runtergedreht, hat nichts gebracht.
Rivatuner per CCleaner aus dem Autostart herausgenommen und Rechner neu gestartet,
Karte lief immer noch nur mit halben Werten.
Erst das deinstallieren von Rivatuner und säubern der Registry per CCleaner hat die Karte wieder dazu bewegt,
mit Standardwerten zu laufen.

*noahnung*
 
Rivatuner unter Linux wird etwas schwer ;) Entweder das Board hat wirklich etwas gröberes oder das CUDA Interface haut noch nicht hin.

Hatte aber ein ähnliches Problem mit meiner 3870X2 als ich das Taktminimum für den RAM ausloten wollte. Habe das System neu aussetzen müssen bis sie wieder ging. Seither lote ich nur mehr ungefähr aus und flashe die Änderungen dann ins BIOS.

lg
 
so, da ja die kleine ATI nicht ums verrecken sauber falten wollte hab ich jetzt zur unterstützung unseres folding-teams eine ps3 dazugeschaltet.
ist ja in etwa gleichwertig was die ppd betrifft ;)
 
Zurück
Oben Unten