News SETI.Germany : World Community Grid: Wiederherstellung läuft, Webseite wieder erreichbar

P3D-Bot

Bot von P3D
Mitglied seit
09.04.2006
Beiträge
47.148
Renomée
170
Standort
Das Boot 3.0
Nach dem Ausfall zu Monatsbeginn sind inzwischen die Webseite und das Projektforum zumindest die meiste Zeit wieder erreichbar. Bis auch die BOINC-Dienste wieder laufen, dauert es noch ein wenig.

Neues zur Wiederherstellung der Hardware
Die Webseite wurde neu gestartet und wir arbeiten daran, die wissenschaftliche Datenbank wiederherzustellen, damit BOINC bald wieder gestartet werden kann.
---
Kurze Geschichte

Am 1. März erlitten wir einen Festplattenausfall, der die Kommunikation zwischen unseren wissenschaftlichen und BOINC-Dateisystemen verhinderte und auch die Webseite und das Forum mitriss. Zunächst sah es nach einem Ausfall eines RAID-Controllers aus. Aus einer eigentlich routinemäßigen Fehlerbehebung wurde jedoch ein längeres Unterfangen, nachdem wir feststellten, dass das Problem deutlich ernster war. Es stellte sich heraus, dass der PCI-Bus ausgefallen ist, weshalb wir alle unsere Festplatten in ein anderes Speichersystem umziehen und die RAID-Konfiguration wiederherstellen mussten. Glücklicherweise konnte Sharcnet ein identisches, älteres Speichersystem finden, das wir zur Wiederherstellung verwenden konnten.

Das Rechenzentrum konnte all unsere Festplatten in ein Reservesystem einbauen und den Wiederherstellungsprozess einleiten. Zwar konnte die Integrität der Daten bestätigt werden, aber wir konnten das System nicht booten; wir mussten dafür sorgen, dass die Systemfestplatten im neuen Server funktionieren.

Neustart der Webseite

Am 13. März konnten wir endlich die Datenbanken hinter Webseite und Forum neu starten. Die anfängliche Leistung sowie die Verfügbarkeit und Funktionalität insgesamt bleiben begrenzt wegen der anhaltenden Wiederherstellungsmaßnahmen und Sicherungen. Zwar können die Statistiken nicht aktualisiert werden, bis wir BOINC wieder vollständig starten und bereits bearbeitete WUs herunterladen können - es geht aber keine Arbeit verloren und es werden alle Punkte vergeben, da wir die Zeit zum Zurückmelden der Ergebnisse verlängern werden.

Wir sind enorm dankbar für uns entgegengebrachte positive Einstellung während dieser Vorgänge.

Wir haben Neuigkeiten zu ARP, SCC und MCM vorbereitet und warten damit nur bis zur vollständigen Wiederherstellung nach unserem Speicherausfall.

Falls ihr Kommentare oder Fragen habt, hinterlasst diese bitte in diesem Thread (engl.). Danke für eure Unterstützung, eure Geduld und euer Verständnis.

Das WCG-Team
14.03.2023

Originaltext:
Zitat
Zitat von Hardware Recovery Update
The website has been restarted and we are working on rebuilding the science database so BOINC can restart soon.
---
Brief history

On March 1st, we suffered a disk failure that prevented communication between our science and BOINC filesystems, and brought down the website and forum as well. Initially, it looked like a RAID controller failure. What should have been a routine fix turned into a lengthier endeavor when we realized the issue was much more severe. It turns out the PCI bus failed, meaning we needed to move all of our disks to an alternate storage system, and rebuild the RAID configuration. Fortunately, Sharcnet was able to locate an identical, older storage system that we could use during the recovery.

The data center was able to put all of our disks into a spare system and the rebuilding process began. While the data integrity was confirmed, we could not boot the system; we needed to fix the system disks to work in the new server.

Website restart

On March 13, finally, we managed to restart the website/forum databases. Initial performance and overall availability/functionality remains limited due to continued storage recovery efforts and backup. While the stats cannot be updated until we fully restart BOINC and download already processed WUs - no work will be lost, and all credit will be given, as we will extend the time for returning results.

We are immensely grateful for the positivity that we received during the process.

We have ARP, SCC, MCM updates in the pipeline - just waiting for the full recovery from our storage failure.

If you have any comments or questions, please leave them in this thread for us to answer. Thank you for your support, patience and understanding.

WCG team
14 Mar 2023

Lese weiter bei SETI.Germany....
 
Zurück
Oben Unten