Allgemeiner Plauderchat über das Thema DC Part IV

So, die DC Heizung ist erstmal beim Probelauf allerdings konnte ich nur den Cruncher mit den 4x Radeon VII in den Ring werfen. Der Cruncher mit den 4x Radeon Pro Duo hat leider die Hufe gerissen, da scheint irgendetwas durchgebrannt zu sein. Letzte Woche lief er bei seiner Update Runde noch. :]
 
Mal ein Foto von den beiden Kreisläufen und den provisorischen Vorratsbehältern.
Bilder der beiden Heizkörper und des DC Regals fehlen leider noch und werden bei Gelegenheit nachgereicht.

Kreislauf.JPG

Update
Eine erste Durchsicht des defekten Crunchers ist vollzogen (Ausbau der Grafikkarten und des Netzteils) und eine der 4 Grafikkarten stank mit Abstand am meisten nach verbrannter Elektronik. Die Vermutung liegt nahe das diese sich verabschiedet hat.
Ein Testlauf der reduzierten Config steht noch aus.

zweites Update
So, der Testlauf mit nur noch 3x Radeon Pro Duo endete mit dem (ASRock) Dr. Debug Fehler 39, ein RAM Problem.
BIOS Reset und 2 der 3 Grafikkarten deaktiviert (wegen BIOS Reset) -> Problem bleibt
Alle Module raus, nur eines wieder rein -> Rechner startet wieder.

Jetzt bringe ich erstmal das BIOS auf den aktuellen Stand und schaue dann nach dem ev. defekten Speichermodul.

Nächstes Update
Alle 4 Speichermodule scheinen zu funktionieren, keine Ahnung warum er vorhin streikte. Vielleicht war einfach mal ein erneutes Stecken der Module fällig. *noahnung*

Nun mache ich mich aber erstmal an das Update der beiden Ubuntu Installationen die schon einige Jahre auf dem Buckel haben. Mit Windows bin ich bereits durch.

Und wieder ein Update
Nun kommen auch noch die Bilder der beiden Heizkörper (je 1,8m hoch) und vom vorläufigen Füllstand des PC Racks mit seinen 3 Kreisläufen. (einer für die CPU Cruncher und je einer pro GPU Cruncher, jeweils mit eigenem Filter)

PC Rack.jpg Heizkörper 1.jpg Heizkörper 2.jpg
 
Zuletzt bearbeitet:
Noch ein kleines Update von der zerlegten, defekten Grafikkarte.
Ich denke die hat es hinter sich.
Defekt.jpg
[automerge]1732224502[/automerge]
Beim Versuch die eingebrannten Reste des Wärmeleitpads vom Wandler Chip zu kratzen ist auch gleich der ganze Wandler abgefallen. Das Ding hat sich richtig in die Leiterplatte eingebrannt.
Die Karte hat es definitiv hinter sich! *oink*
 
Zuletzt bearbeitet:
Hier gibt es einen Thread zum Gedenken für im Dienst(Boinc) gestorbene Hardware 😭
wir werden sie bei Einstein Vermissen.
 
Da muss ich mich ein anderes mal verewigen denn jetzt wo die Kiste wieder an ihrem Platz ist und ackern soll haben sich noch weitere Probleme offenbart.
Erst hatte ich massive Probleme beim Entlüften weil ich vergessen hatte die Zusatzpumpe einzustöpseln, dann funktionierte der USB Stöpsel der Tastatur nicht weil sich der Stecker aus der Buchse vom Mainboard gelöst hatte und dann mußte ich feststellen das nur 4 von 6 GPUs aktiv waren. Aus irgendwelchen Gründen streikt die zweite Karte. Vielleicht eine Nachwirkung des BIOS Updates?

Nun habe ich erstmal die Karte vom Strom getrennt und mache mit den anderen beiden einen Probelauf.
 
Kleines Bilder Update in #2.377
 
Ich habe heute mal die 290x in den Steckplatz der Pro Duo gesteckt die nicht erkannt wurde und auch die wird nicht erkannt. Es scheint also als hätte der TR 1900x oder das Mainboard etwas abbekommen wodurch offenbar auch dieser Steckplatz ausgefallen ist. Ich werde die ausgebaute Pro Duo wohl erstmal mitnehmen müssen um sie in einem anderen System zu checken.

Ob sich da noch eine Reparatur lohnen würde? Ich denke eher nicht und würde ich es erstmal so weit zerlegen dass das Board ausgebaut ist würde ich es mit einem defekten Mainboard nicht wieder zusammenbauen. Auf der anderen Seite gibt es aber auch keine würdige und bezahlbare Nachfolgeplattform. *kopfkratz
 
Wer hat iThena kaputt gemacht?
 
Der defekte Cruncher wird zwischenzeitlich auf mein altes 990FX Extreme 9 Board (hatte beim letzten BIOS NVME Support erhalten) sammt FX-8350 umgebaut da ich dort zumindest 3 Grafikkarten und per Adapter die NVME SSD unterbekommen kann.
Der Umbau der Wakü wird aber noch dauern da ich dafür den CPU Kühler aus dem Daddelsystem benötige (wurde per Langloch von AM3 auf AM4 umgebaut) und alles was ich sonst noch benötige an meinem anderen Standort steht.

Bei einer ersten Sichtkontrolle konnte ich nach dem Ausbau allerdings beim TR 1900x und dem Asrock X399 Taichi keine Defekte erkennen.
 
Ich bin gerade bei einem Probelauf mit dem halb umgebauten Rechner um die angefangenen Primegrid WUs wegzurechnen und da sind mir noch weitere bzw. andere Probleme aufgefallen.
Den Ausfall der zweiten Grafikkarte fiel auch dort auf, was aber kaum am Mainboard bzw. der bereits gewechselten Grafikkarte liegen könnte. Als ich testweise die PCIe Stromkabel tauschte und der Fehler mitwanderte war die Ursache recht eindeutig. Entweder das Netzteil oder eines der beiden Anschlusskabel.

Ein weiteres Problem fiel mir bei der SSD auf die Füße denn nach unterschiedlichen Laufzeiten geht die HDD LED auf Dauerblinken, die Auslastungsanzeige auf 100% und der Rechner schmiert nach einer gewissen Zeit ab weil sie bis zum aus- und wieder einschalten blockiert ist. Das fiel mir bei der alten Config auch schon auf, zuletzt aber in erheblich kürzeren Abständen.
Gibt es jetzt auch noch ein Problem der SSD?

Edit:
Erfreulicher weise scheit die SSD (Samsung 970 Evo) nach mehrere Neustarts aufgrund der blockierten SSD jetzt durchzuhalten. Damit kann ich die 4 ausstehenden WUs (leider nicht mehr rechtzeitig zum Race) fertig rechnen. Mal schauen was dabei nach den unzähligen Abstürzen und Neustarts raus kommt.
Anschließend muss ich mir überlegen was ich mit dem Problemrechner machen werde.

Ein Test der Threadripper Plattform steht noch aus.
 
Zuletzt bearbeitet:
Keine Ahnung, vielleicht beim Einparken überfahren? *noahnung*
 
Heute noch ein Netzteil zum Testen der Threadripper Plattform geholt und was soll ich sagen? Alle 4 PCIe Slots funktionierten mit einer Vega 64 beim Post Test. Mal schauen wann ich die Kiste wieder zurück baue.

Damit hätte es dann 3 Fehler gegeben.
Die defekte Grafikkarte, die zickige System SSD (wird noch getauscht) und ein Problem mit den Stromkabeln der zweiten Karte.Da muss ich noch schauen ob es an den Kabeln oder den Abschlüssen vom Netzteil liegt
 
Dafür hat jemand WuProp kaputt gemacht.
 
Vermutlich ist Sebastien da am werkeln. Formula Boinc ist auch nicht erreichbar.
 
Formula Boinc ist erreichbar
 
WUProp auch wieder :D
Hatte vorhin das:
Mod_python error: "PythonHandler mod_python.publisher"

Traceback (most recent call last):

File "/usr/lib/python3/dist-packages/mod_python/apache.py", line 402, in HandlerDispatch
result = obj(req)
^^^^^^^^

File "/usr/lib/python3/dist-packages/mod_python/publisher.py", line 222, in handler
published = publish_object(req, object)
^^^^^^^^^^^^^^^^^^^^^^^^^^^

File "/usr/lib/python3/dist-packages/mod_python/publisher.py", line 446, in publish_object
return publish_object(req, util.apply_fs_data(obj, req.form, req=req))
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

File "/usr/lib/python3/dist-packages/mod_python/util.py", line 662, in apply_fs_data
return object(**args)
^^^^^^^^^^^^^^

File "<string>", line 10, in index

File "/usr/lib/python3/dist-packages/MySQLdb/__init__.py", line 84, in Connect
return Connection(*args, **kwargs)
^^^^^^^^^^^^^^^^^^^^^^^^^^^

File "/usr/lib/python3/dist-packages/MySQLdb/connections.py", line 179, in __init__
super(Connection, self).__init__(*args, **kwargs2)

MySQLdb._exceptions.OperationalError: (2002, "Can't connect to local server through socket '/run/mysqld/mysqld.sock' (111)")
 
Um auch mal eine gute Nachricht zu bringen:
cruncher.JPG
 
Bis auf eine Pro Duo alles OK?
 
Weitestgehend.
Die eine Pro Duo war definitiv tot, die zweite Karte fiel aus weil bei einem Kabel der Stecker aus der Buchse des Netzteils gerutscht war (ein hoch auf das Kabelmanagement...), die weiteren Hänger scheinen an der SSD gelegen zu haben, welche zwar später wieder richtig lief aber vorsichtshalber doch getauscht wurde. 512 GB vs. 2 TB, Reserve für später. ^^

Ein weiteres Problem kam wiederum bei den Tests nach dem Zusammenbau hoch das ich noch weiter ergründen muss.denn der angeschlossene Hubby7 (zur Verteilung des USB 2.0 Anschlusses der von der untersten Karte blockiert wird) brachte bereits bei vor dem Post die Initialisierung durcheinander die sich in einer Endlosschleife verrannte.
Kompatibilitätsprobleme zwischen dem USB Hub und dem Board kannte ich aber schon von früher, da muss ich nochmal schauen ob andere Ports damit besser klar kommen oder ob ich auf einen anderen Hub wechseln muss.
 
So, bisher läuft der Rechner soweit.
Heute Morgen wurden zwar fehlerhafte WUs ausgespuckt weil irgendein Update die OpenCL Schnittstelle abgeschossen hatte aber nach einem Reboot lief es wieder.
 
Heu. Gibt übrigens wieder Arbeit bei Rosetta. Wie viel habe ich nicht nachgesehen.
 
Kannst du was runterladen? Hab zwar welche bekommen, die hängen aber im Download fest.
 
Ja. Ich habe vorhin die Berechnungszeit geändert, war dann etwas zäh im Download aber ging.
Vielleicht sind zwei Anfragen schon wieder zuviel für den Server? *oink*
 
Zurück
Oben Unten