14. Pentathlon 2023: Hindernislauf/ehem. Marathon (Yoyo@Home; nur ECM und ECM P2!)

Ich bin mal nach dem Reboot auf 50% der Prozessoren gegangen und die RAM Belegung quoll dennoch auf 80-90% an weil sich jede min. 3,6 GB unter den Nagel reißt.
 
Jo, auf dem 3700X alle 16 auf Null, auf dem 3900X 20 von 24 auf Null.
Damit werde ich wirklich ECM nur noch auf 24/7-PCs rechnen. Alles andere hat keinen Sinn.
Also erst einmal überall "no new work". Schade.
Doppelposting wurde automatisch zusammengeführt:

Hat jemand Erfahrungen, ob sich der Effekt verhindern lässt, wenn man den PC nur in den Ruhezustand versetzt und nicht runterfährt? ???
Wie - Rechner "runterfahren"??? *kopfkratz *chatt* *chatt*
Das mach' ich nur noch, wenn ich an der HW schraube - sonst ist das nicht notwendig - Ruhezustand und gut is!
Da macht die Maschine genau da weiter, wo sie sich zuvor schlafen gelegt hat - mach ich unter Windows seit > 10 Jahren nur noch so, funktioniert problemlos...

Vollgas auf drei/vier PCs kann ich finanziell nicht fahren, also war mein Gedanke, ich fahre einen PC auf 24/7 und alle anderen nur, wenn von der PV-Anlage genug Strom kommt. Aber eben das geht mit Yoyo ECM nicht, wie ich sehen musste.
 
Dolle Wurst, jetzt wo die zum nächsten Speicherpunkt übergesprungen sind klatscht der RAM Bedarf auf der WUs auf ca. 770 KB zusammenund die RAM Asulastung ist nur noch bei ca. 6 GB. Gleich mal die Prozessoren wieder auf 100% setzen damit der Rest nachziehen kann.
 
Bei meinem 4700U:
ecm_cw_ haltbar bis 7.5. Laufzeit 1,5h
ecm_hc_ haltbar bis 7.5. Laufzeit 2h
ecm_cn_ haltbar bis 12.5. Laufzeit 11h
Weia, mein kleiner N5095 hat sich nur ecm_ru gezogen. Laufzeit: 20h 11min bis 20h 24min. *chatt*
Sind die schon durch?
Ich hab reichlich viele _ru_ bekommen, da komme ich bei 20h Laufzeit bis Ende des Penta mit hin wenn die wirklich so lang sind ???
 
Ich frage mich ja echt, was sich Yoyo dabei gedacht hat. In den Eigenschaften der WUs sehe ich Angaben von nur sehr wenigen MB-RAM-Bedarf. MB, nicht GB! Kein Wunder, dass dann immer zu viele von denen gestartet werden.
 
@koschi
Bei meinem TR 3990X waren es bisher ca. 4-12h
 
Mein R7 1700X ist bei den ECM_ru WUs gerade bei 80 % und 14,5 Stunden Laufzeit.
Restanzeige: 3 Stunden.
Auf allen 16 Threads @ 3,4 GHz
 
Abwarten, wie das mit der Laufzeit skaliert. Wenn es entsprechend mehr Credits gibt, sollen sie doch lange laufen :D
 
Denn würd ich lieber mittelkleine nehmen, dann ist bei einem Out of Memory kill nicht gleich der ganze Fortschritt weg.
Meine _ru_ sind jetzt schon bei knapp 10h und 17% Fortschritt, dürfen gern mal fertig werden.
 
Der boinc client ist wieder ausgestiegen, zurück auf 50% bis der Mist durch ist.
 
Wenn dir wegen OoM was gekilled wird kannst du idR. über die Shell und dmesg sehen wie in dem Moment der Verbrauch war. Hier mal ein Beispiel von einem Odroid N2 den ich mit 4 ECM überfordert hab:

Code:
[505586.286121] sh invoked oom-killer: gfp_mask=0x27080c0(GFP_KERNEL_ACCOUNT|__GFP_ZERO|__GFP_NOTRACK), nodemask=0, order=2, oom_score_adj=0
[505586.286125] sh cpuset=/ mems_allowed=0
[505586.286132] CPU: 2 PID: 534953 Comm: sh Not tainted 4.9.219-72 #1
[505586.286134] Hardware name: Hardkernel ODROID-N2 (DT)
[505586.286135] Call trace:
[505586.286144] [<ffffff800908b000>] dump_backtrace+0x0/0x268
[505586.286147] [<ffffff800908b2ec>] show_stack+0x24/0x30
[505586.286151] [<ffffff800943bd04>] dump_stack+0xc0/0xec
[505586.286155] [<ffffff80092289a4>] dump_header+0x6c/0x1b8
[505586.286158] [<ffffff80091c1cb8>] oom_kill_process+0x2c0/0x508
[505586.286160] [<ffffff80091c22ec>] out_of_memory+0x10c/0x2e0
[505586.286162] [<ffffff80091c8440>] __alloc_pages_nodemask+0x9c8/0xda8
[505586.286166] [<ffffff80090a31b8>] copy_process.isra.8.part.9+0x118/0x14d0
[505586.286168] [<ffffff80090a470c>] _do_fork+0xd4/0x410
[505586.286170] [<ffffff80090a4bbc>] SyS_clone+0x4c/0x60
[505586.286172] [<ffffff80090839c0>] el0_svc_naked+0x34/0x38
[505586.286174] Mem-Info:
[505586.286180] active_anon:788984 inactive_anon:144 isolated_anon:0
                 active_file:459 inactive_file:460 isolated_file:0
                 unevictable:0 dirty:0 writeback:0 unstable:0
                 slab_reclaimable:8673 slab_unreclaimable:13754
                 mapped:449 shmem:255 pagetables:2631 bounce:0
                 [cma] driver:20651 anon:1214 file:259 isolate:0 total:126976
                 free:106363 free_pcp:0 free_cma:104372
[505586.286184] Node 0 active_anon:3155936kB inactive_anon:576kB active_file:1836kB inactive_file:1840kB unevictable:0kB isolated(anon):0kB isolated(file):0kB mapped:1796kB dirty:0kB writeback:0kB shmem:1020kB writeback_tmp:0kB unstable:0kB pages_scanned:0 all_unreclaimable? no
[505586.286191] DMA free:425452kB min:7780kB low:11564kB high:15348kB active_anon:3155936kB inactive_anon:576kB active_file:1836kB inactive_file:1840kB unevictable:0kB writepending:0kB present:3891200kB managed:3801316kB mlocked:0kB slab_reclaimable:34692kB slab_unreclaimable:55016kB kernel_stack:4240kB pagetables:10524kB bounce:0kB free_pcp:0kB local_pcp:0kB free_unmovable:1580kB free_movable:1960kB free_reclaimable:4776kB free_highatomic:64kB free_isolate:0kB free_cma:417488kB
[505586.286192] lowmem_reserve[]: 0 0 0
[505586.286195] DMA: 1743*4kB (UMEHC) 162*8kB (UMEC) 80*16kB (UMEHC) 40*32kB (MC) 19*64kB (C) 1*128kB (C) 0*256kB 0*512kB 2*1024kB (C) 3*2048kB (C) 99*4096kB (C) = 425868kB
[505586.286210] 1169 total pagecache pages
[505586.286212] 0 pages in swap cache
[505586.286214] Swap cache stats: add 0, delete 0, find 0/0
[505586.286215] Free swap  = 0kB
[505586.286215] Total swap = 0kB
[505586.286216] 972800 pages RAM
[505586.286217] 0 pages HighMem/MovableOnly
[505586.286218] 22471 pages reserved
[505586.286218] 126976 pages cma reserved
[505586.286220] [ pid ]   uid  tgid total_vm      rss nr_ptes nr_pmds swapents oom_score_adj name
[...]
[505586.286354] [521108]   122 521108     1083      147       6       2        0             0 BHspin2_20_arm-
[505586.286357] [522556]   122 522556     1083      145       5       2        0             0 BHspin2_20_arm-
[505586.286359] [526512]   122 526512     1083      133       6       2        0             0 BHspin2_20_arm-
[505586.286362] [526699]   122 526699     1082      132       8       2        0             0 BHspin2_20_arm-
[505586.286364] [527414]   122 527414     3150       87       7       3        0             0 ecmwrapper_705.
[505586.286366] [527416]   122 527416   352340   338655     692       4        0             0 ecm
[505586.286369] [527417]   122 527417     3150       88       6       3        0             0 ecmwrapper_705.
[505586.286372] [527419]   122 527419   343128   335848     673       5        0             0 ecm
[505586.286374] [528608]   122 528608     3150       87       7       3        0             0 ecmwrapper_705.
[505586.286377] [528613]   122 528613    81248    79728     161       3        0             0 ecm
[505586.286379] [528755]   122 528755     3150       87       7       3        0             0 ecmwrapper_705.
[505586.286381] [528757]   122 528757      415       62       4       3        0             0 ecm
[505586.286385] [532135]   122 532135     3613      263       6       3        0             0 ithena_cnode_v1
[505586.286387] [533093]   122 533093     4277      824      11       3        0             0 data_collect_v4
[....]
[505586.286415] Out of memory: Kill process 527416 (ecm) score 357 or sacrifice child
[505586.288598] Killed process 527416 (ecm) total-vm:1409360kB, anon-rss:1354620kB, file-rss:0kB, shmem-rss:0kB

Am spannendsten die Tabelle und die Zusammenfassung. Die Größenangabe in der Tabelle sind jeweils 4kb Pages, so lässt sich das dann fix umrechnen. Den größten ECM Prozess hat es dann umgelegt.


Ich hab das aber auch schon erlebt das BOINC komplett abgeschossen wurde, da hab ich aber keine Logs mehr zu.
 
Wie gesagt, ich konnte das einmal direkt beobachten.
Erst füllte sich der RAM, als auch die Auslagerungsdatei voll war war Feierabend für den boinc client, wodurch auch die WUs abgeschossen wurden und der boinc Manager stand ohne da.
 
Wundere mich nur warum Linux mal so und mal so reagiert. Ob das Verhalten OoM killers vielleicht sogar konfigurierbar ist?

Mal eine WU zu verlieren (die ecm enden dann mit app exit status: 0x9) wäre ja nicht so schlimm, den Fortschritt aller WUs einzubüßen aber sehr ärgerlich.
 
Klingt jetzt nicht wirklich berauschend.

Aber Linus T. erwähnte doch mal, dass er kein Bock mehr auf Speicher Fehler hat.

Wie Recht er hatte, sehen wir heute.

Edit: Nur Mist essen und sich dann über Krämpfe wundern. Pfui !
 
Zuletzt bearbeitet:
Hab gerade kein Linux zur Hand. Aber seht Euch mal die Variable /proc/sys/vm/overcommit_memory an und setzt sie evtl. auf 2. Mehr Swap könnte auch für temporäre Memory Peaks helfen.
 
Alles hochgeladen aber werden nicht gemeldet. Bekomme: [error] No close tag in scheduler reply
 
Alles hochgeladen aber werden nicht gemeldet. Bekomme: [error] No close tag in scheduler reply
Au Mist, das wird wieder mal an der alten Serversoftware liegen. :-(
Das kenne ich, wenn ich zuviele abgebrochene auf einmal zurückmelden will, weil zu viele WUs versendet wurden, die nicht bis zur Deadline berechnet wurden.
Bei mir half da bisher nur Projekt zurücksetzen. @yoyo Ich hoffe, es gibt eine bessere Lösung!?
 
Alles hochgeladen aber werden nicht gemeldet. Bekomme: [error] No close tag in scheduler reply
Au Mist, das wird wieder mal an der alten Serversoftware liegen. :-(
Das kenne ich, wenn ich zuviele abgebrochene auf einmal zurückmelden will, weil zu viele WUs versendet wurden, die nicht bis zur Deadline berechnet wurden.
Bei mir half da bisher nur Projekt zurücksetzen. @yoyo Ich hoffe, es gibt eine bessere Lösung!?
Versucht mal in der cc_config

<max_file_xfers>20</max_file_xfers>
<max_file_xfers_per_project>20</max_file_xfers_per_project>

Das sollte das Problem umgehen.
 
@enigmation @Rebirther
Danke, probiere ich heute Abend gleich aus. Habe erstmal weitere Instanzen aktiviert auf denen weitergerechnet werden kann.
 
Meine Rechner schrotten fast alle WUs. Fehlermeldung bei den Ergebnissen:
Client Error Compute Error
Laufen tun die unter Virtualbox VM, mit Linux Mint 20.3, 5.4.0-148.

Kennt das jemand?
 
Ja. Allerdings nativ, mit ecm P2 WU´s.
Zu wenig Speicher. Musste die Anzahl der Prozessoren begrenzen.
Irgendwie gibt es Probleme beim RAM verwalten
 
Berechnungsfehler... :/
Wahrscheinlich wegen Speichermangels - damit bin ich beim Marathon raus. :(
 
Zurück
Oben Unten