Allgemeiner Plauderchat über das Thema DC Part III

Status
Für weitere Antworten geschlossen.
Bei Milkyway hab ich wohl gerade ein faules Batch erwischt.
Alle WUs sind "nicht eindeutig" und wurden teils schon an 2-3 andere Leute geschickt mit gleichem Ergebnis. :(
bei mir auch, 600 und 719 beim anderen PC 'nicht eindeutig'


kommt asteriods@home eigentlich nochmal wieder ?
 
Laut Startseite von Asteroids hat die Ersatzhardware für den Server nun auch komplett die Hufe hochgerissen.
Man will daher warten, bis die neue Hardware da ist und nicht zwischendurch noch eine Ersatz-Ersatz-lösung frickeln.

Bei Collatz habe ich wohl ydeeps stats durcheinander gebracht. Mal eben in ein paar Tagen meine Punkte verdoppelt, damit kam die Statistik wohl nicht klar. ;)
 
Ich habe heute Nacht, als Numberfields durch war, Einstein auf der RX460 aktiviert. Puffer steht auf 0,01.
Bis heute früh haben sich stolze 500 WUs eingefunden und im Minutentakt kam eine weitere hinzu. Und die laufen ja eine ganze Weile auf der lahmen GPU (prognostiziert: 21:xx min)
Hat Jemand eine Idee, warum sich Einstein wie bekloppt mit WUs eindeckt?
Andere Projekte nehmen sich nur so viel, wie gerade berechnet werden kann (z.B: Universe auf der CPU).
 
Bei Einstein ist der DCF zu Beginn oft arg daneben, daher gibt es dann zuviele WUs bis sich das glatt zieht...
 
DCF? Ist das die "verbleibend (geschätzte) Restzeit" ?
Die ist ja realistisch. Und selbst wenn die am Anfang daneben war, auch nach Stunden, wo schon lange 20 Minuten dagestanden haben müssten, hat er sich im Minutentakt weitere WUs gezogen. Bei Bunker = 0,01 sind 500 WUs definitiv zu viel.
Jetzt habe ich gerade eben noch mal zum Test neue Arbeit erlaubt und schon wieder hat sich Einstein eine neue WU gezogen. Dabei ist die Restzeit inzwischen sogar auf 1h47m angewachsen, weil immer OPNG und Einstein parallel liefen.

Edit: Achso, der Duration Correction Factor ist das. Der steht für Einstein auf 2.08
Den hätte ich eher unterhalb von 1 erwartet.
 
Bei Einstein habe ich wegen der langen off Zeiten eher das gegenteilige Problem.
Erst bekomme ich kaum WUs, weshalb er sich erstmal einrechnen muss um genug WUs puffern zu können.
 
Bei WCG ist es nun das gleiche Problem.
Trotz 0,01 bereits knapp 100 WUs.
Als ob die Einstellungen im Boinc Manager ignoriert werden.
Doppelposting wurde automatisch zusammengeführt:

Ursache gefunden.
Um Einstein und OPNG jeweils parallel mit einer WU rechnen zu können, hatte ich pro Projekt mittels max_concurrent nur eine WU erlaubt. Denn 2xEinstein waren zu viel für die 2GB VRAM und OPNG allein hatte die GPU nicht wirklich ausgelastet.
Kaum war max_concurrent aus der app_config raus, hat der BoincManager nicht weiter nach WUs verlangt und vor allem auch keine mehr bekommen. Das könnte man vielleicht nehmen, um mehr WUs zu erhalten, als das Projekt erlaubt.
Da ist es natürlich doof, dass Ubuntu eine vergleichsweise alte Boinc-Version drin hat.
 
Zuletzt bearbeitet:
Irgendwas scheint bei meinem Cruncher (8x Fiji) faul zu sein.
Egal ob Windows oder Linux, sobald alle 8 GPUs aktiv sind und eich Einstein rechnen will schmiert die Kiste mit einem Blackscreen so nachhaltig ab das sie danach nicht mehr starten will und bei der GPU Initialisierung hängen bleibt.
Erst nach einem BIOS Reset ist das Teil wieder zur Zusammenarbeit zu bewegen. Milkyway bereitete wiederum keine Probleme und die Failsave Config mit 2 deaktivierten Grafikkarten rechnet Einstein ebenfalls einwandfrei.
Nun ist die Preisfrage ob es am Netzteil oder dem Mainboard liegen könnte. *kopfkratz
 
Nun ist die Preisfrage ob es am Netzteil oder dem Mainboard liegen könnte.
Testweise leichter getauscht wäre wohl das Netzteil (oder wie hast Du das realisiert bei nem 8 GPU Cruncher?).

Gruß
Ritschie
 
Das ist ein 2 KW ATX Netzteil das 4x Radeon Pro Duo versorgt und die Auswahl ist hier seeeeehr mager.
Da kenne ich letztendlich nur dieses das wohl nur von Caseking angeboten wird und das voraussichtliche Lieferdatum vom 30.12.2021 spricht nicht gerade für einen schnellen Tausch.
Das Mainboard wäre aber ebenfalls ein Krampf da ich bereits in der Vergangenheit erhebliche Probleme mit der 4 Karten/8 GPUs Config hatte. Ein ASRock Board das ich testweise wegen der damaligen BIOS Probleme des MSI Boards hatte (es lief nicht jede BIOS Version mit dem vollen Ausbau) scheiterte im Vollausbau komplett bei der GPU Initialisierung und bildet inzwischen die Basis für die 4er Radeon VII Config.

Es kann aber natürlich auch sein das sich was bei den WUs verändert hat was nun das System so dermaßen abschießt denn wie gesagt, Milkyway lief einwandfrei und die 4 GPU Config mit Einstein ebenfalls. Bei der 6 GPU Config hing sich das System ebenfalls nach dem gleichen Schema auf.
Bis 4 GPUs deckt ja auch die Standard BIOS Config ab, darüber benötige ich UEFI und die +4 GPU Option im BIOS.

Seit dem Penta stand das System praktisch nur rum und wurde heute nur für die Update Orgie erweckt und wollte dabei noch ein paar Test WUs starten.
 
Ich habe die Tage auch nochmal auf der RX570 Einstein zugelassen und konnte auch sofort abgebrochene WUs beobachten. Jetzt laufen sie gerade wieder. Ob da ein Zusammenhang besteht? *noahnung*
 
Gute Frage, bei mir wurden die angerechneten WUs nach dem Neustart immer mit einem Berechnungsfehler abgebrochen.
Was aber auch sehr auffällig ist, unter Windows bekomme ich mit dem System eine "Gamma-ray pulsar" WUs, die gab es nur unter Linux. Unter Windows bekam ich für die GPUs nur "Gravitational Wave search O3" WUs. Andere Systeme hatte ich noch nicht getestet.

Die bereits geholten WUs hatte ich immer mit der 4 GPU Config fertig gerechnet.
Doppelposting wurde automatisch zusammengeführt:

Kleines Update, nachdem jetzt einige "Gravitational Wave search" WUs erfolgreich durch gingen kamen unter Windows auch "Gamma-ray pulsar" WUs, welche aber alle nach 8s mit einem Berechnungsfehler abgebrochen wurden.....
 
Zuletzt bearbeitet:
Irgendwas scheint bei meinem Cruncher (8x Fiji) faul zu sein.
Egal ob Windows oder Linux, sobald alle 8 GPUs aktiv sind und eich Einstein rechnen will schmiert die Kiste mit einem Blackscreen so nachhaltig ab das sie danach nicht mehr starten will und bei der GPU Initialisierung hängen bleibt.
Erst nach einem BIOS Reset ist das Teil wieder zur Zusammenarbeit zu bewegen. Milkyway bereitete wiederum keine Probleme und die Failsave Config mit 2 deaktivierten Grafikkarten rechnet Einstein ebenfalls einwandfrei.
Nun ist die Preisfrage ob es am Netzteil oder dem Mainboard liegen könnte. *kopfkratz
Genau das! gleiche!!! Fehlerbild hatte ich auch. Bei mir wars das Netzteil. Seit Netzteiltausch alles wieder normal und kein einziger Ausfall oder Blackscreen/Bluescreen.
 
Ich würde ja an Deiner Stelle 2 Karten in einen anderen Rechner packen.
Gerade weil es ja offenbar immer mal wieder Probleme verschiedenster Art zu geben scheint.
Das erleichtert dann auch die Auswahl von Board und Netzteil.
 
@MagicEye04
Aufgrund meines WaKü Setups kann ich das definitiv von Anfang an Vergessen denn die Karten haben ihren Radiator nicht mehr sondern sind alle parallel in einem WaKü Kreislauf eingebunden. ;)
Abgeschaltet werden sie bei mir indem der äußerste Stromanschluss abgesteckt wird. Bei den Radeons geht das meiner Erfahrung nach problemlos, bei den Geforce Karten gibt es dann meiner Erfahrung nach nur Probleme, weshalb sie dann meiner Erfahrung nach gleich ausgebaut werden sollten.

@Pegasushunter
Möglich, wobei Milkyway und PrimeGrid aktuell einwandfrei in der 8er Config bei ca. 1600W an der Steckdose durchliefen. An sonsten könnte ich noch mit NumberFields und ev. Collaz (p3d-cluster) testen.
Einstein forderte das System zwar am meisten und lag dann bei 1800-1900W, für die 6er Config hätte diese 1600W Grenze aber dennoch reichen müssen. *noahnung*

Ich vermute so langsam eher das sich was bei den Projekt Clients von EInstein geändert hat was nun bei meiner +4 GPU Config knallt denn bei beiden Unterprojekten wurde heute auch ein neuer Client runtergeladen.
Doppelposting wurde automatisch zusammengeführt:

Da fällt mir gerade noch etwas ein, bei Folding@home hatte ich schon immer ein sehr ähnliches Problem denn auch dort waren bei mir nur 4 GPUs nutzbar. Sobald mehr im Spiel waren schmierte die Kiste gnadenlos ab. Da es aber der einzige Rechner ist der diesse Grenze überschreitet kann ich nicht sagen ob es an der Software oder an der Hardware liegt/lag.
 
Zuletzt bearbeitet:
So alt ist das Fiji-Netzteil doch noch gar nicht. Ist ja schließlich schon das Ersatzteil.
Wenn ich den Rechner bei mir hatte, habe ich immer einen 120er-Lüfter mit 3000U/min
vor das Netzteil gehängt. Hat mich geholfen.
 
Habe hier auch ein Corsair HX1200. Das dreht erschreckend langsam bei 4x RTX3070 auf Volldampf. 120er Zusatzlüfter musste sein. Das roch schon so komisch*suspect*
 
Es ist immernoch das Netzteil das ich beim Aufbau geholt hatte, das zweite war in den VII Rechner gewandert.
Ich glaube bei Thorsam war das Hauptproblem die Umgebungstemperatur, wodurch es bei Vollast einfach zu warm wurde. Bei einem Vollast Wirkungsgrad von ca. 92% sind das bei ca. 1600W die von der Hardware geschluckt werden immerhin ca. 130W die nochmal zusätzlich im Netzteil an Wärme umgesetzt werden.
Das mit Abstand lauteste an der Kiste ist der Netzteil Lüfter. *oink*
Doppelposting wurde automatisch zusammengeführt:

So, heute hatte ich weitere Tests gestartet.
Die 6900XT berechnet die WUs bisher einwandfrei, hat aber auch den aktuellen 21.6.1 Treiber drauf.
Die Fiji Chips werden davon aber nicht mehr unterstützt und werden nur noch vom Legacy Treiber bedient. Auf dem Rechner kam bisher die alte Radeon Pro Software 20.Q1.1 zum Einsatz weil der Treiber mit dem 8er Setup klar kam aber auch mit der aktuellen 21.Q1.2 Version schmieren die WUs im testweisen 4er Setup ab. *kopfkratz
 
Zuletzt bearbeitet:
Kannst ja hier mal genauer nachlesen. Bei mir funktionierts. Aber die unterschiedlichen GrakaVersionen beachten.Bitte genau lesen, dann läufts wie ein Länderspiel (bei einer anderen Mannschaft)

 
Gerade bei dem System wäre ich sehr vorsichtig mit sowas denn den 21.Q1.2 kann ich wieder von der Platte putzen weil der in der 8er Config sehr instabil läuft. Bereits eine Umstellung der Berechnungseinstellungen schoss das System wieder ab.
 
Da mir die Geschichte nicht so recht Ruhe lassen will habe ich Einstein nochmal mit meiner R9 Nano auf meiner kleinen Testplattform mit dem FX-8350 getestet und was soll ich sagen? Exakt der gleiche Fehler, Abbruch der WU nach 8 Sekunden mit einem Berechnungsfehler.
Damit dürfte außer Frage stehen das etwas am Einstein Client geändert wurde was die WUs zu diesen GPUs inkompatibel macht.
 
Ich hatte beim letzten Mal Einstein rechnen auch erstmals ungewöhnlich viele Errors auf meinen VIIs. Es waren beide Rechner gleichermaßen betroffen. Die meisten WUs wurden zwar fertig gerechnet, aber ungefähr ein Drittel wurde mit Berechnungsfehlern abgebrochen. Das hatte ich vorher in dem Maße nie. Irgendetwas scheint sich daher grundsätzlich geändert zu haben.
 
Ich hab zwar weder eine VII, noch eine R9 Nano, hab aber interessehalber zur RX 5600 XT noch meine RX 480 angeschmissen. Alle mit Gamma-ray pulsar binary search #1 und Linux.

Aktuelles Fazit:
RX 5600 XT: läuft unauffällig und ohne Probleme (8x invalid bei über 1000 validen, 0 Errors)
RX 480: erste WUs problemlos durchgelaufen - aktuell überwiegend im Pending, 0 Errors und ein paar valide. Ist aber noch nicht soo belastbar - ich werde das im Auge behalten und berichten.

Gruß
Ritschie
 
OK, jetzt wird es RICHTIG lustig. ^^
Ich hatte nun die R9 Nano per Start mit gezogenen PCIe Stecker deaktiviert, den aktuellen Treiber vorher deinstalliert, danach mit einer alten HD5570 gestartet, dieser per Gerätemanager den 2015er Treiber reingedrückt weil der neuere nicht die korrekte Auflösung anbot und tadaaa, gab es für die HD5570 neben CAL auch noch OpenCL Support bei dem auch Einstein lief. ^^
WU pausiert, Kiste runtergefahren, die R9 Nano wieder aktiviert um zu gucken was dann passiert.
Nachdem ich feststellen mußte das wegen der Nano wieder der neuere Treiber installiert wurde der für die HD5570 keinen OpenCL Support bietet und die Probleme mit der Auflösung zurück brachte hatte ich der HD5570 wieder den alten Treiber reingedrückt welcher dann auch für die Nano übernommen wurde. Da scheint mir die Treiber Unterstützung eindeutig zu unflexibel zu sein aber immerhin, kein Ausrufezeichen im Gerätemanager.
Reboot (sicher ist sicher) wieder in BOINC reingeschaut (bei de Karten waren dabei aufgeführt) und die WU wieder gestartet. Diese rechnete nun auf der R9 Nano weiter und die zweite für die HD5570 brach nach wenigen Sekunden mit einem Berechnungsfehler ab. Daraufhin hatte ich erstmal den Nachschub pausiert, die WU von der R9 Nano fertig rechnen lassen, für beide nochmal eine neue WU geholt und diesmal brachen beide beim Start mit einem Berechnungsfehler ab.
Kiste wieder runtergefahren, R9 Nano wieder deaktiviert, nur mit der HD5570 gestartet, ne neue WU geholt und diese rechnet nun auf der HD5570 wieder fröhlich vor sich hin ohne das ich nochmal was mit dem Treiber gemacht hätte und ist nach 13 Minuten bei sagenhaften 5%. *chatt*

Ich interpretiere das mal so, rein prinzipiell könnten die WUs laufen aber irgendwas kackt bei deren Startvorbereitung ab.

Weil die Geschichte aber so lustig war warte ich nun die laufende Einstein WU ab und versuche danach nochmal mit beiden Karten mein Glück mit bei Milkyway. *oink*
Doppelposting wurde automatisch zusammengeführt:

Ha! Ich glaube ich habe des Rätsels Lösung.
Ist nur die HD5570 aktiv bekommt die Gamma-ray pulsar WUs in der alten Version 1.22, mit der R9 Nano wurde aber die neuere Version 1.28 vom Server geholt.
Jetzt bunker ich mal so viele wie möglich, fahre die Kiste runter stöpsel die R9 Nano wieder ein und gucken dann nochmal ob beide Karten die parallel wegknuspern.
Doppelposting wurde automatisch zusammengeführt:

Tja, was soll ich sagen?
Mit der alten WU Version läufts.

https://einsteinathome.org/de/host/12898367/tasks/0/0
läuft.PNG
 
Zuletzt bearbeitet:
Kurzes Feedback von mir: unter Linux bekomme ich aktuell eh nur Gamma-ray pulsar v1.18 - nach wie vor keine Probleme erkennbar.

Gruß
Ritschie
 
Status
Für weitere Antworten geschlossen.
Zurück
Oben Unten