Serverausfall

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
169
Punkte für Reaktionen
173
Punkte
93
Ich möchte euch ein paar Hintergrundinformationen geben, wie es trotz Raid, umfangreicher Backup Strategie und aktivem Monitoring zu dem Ausfall und einem Datenverlust von drei Tagen kommen konnte. Es ist ein gutes Beispiel dafür, dass in der IT manchmal Dinge, die man praktisch für unmöglich hält, passieren können, wenn nur genügend ungünstige Umstände zusammen treffen.

Das Forum läuft auf einem Raid1, wird alle zwei Stunden mehrfach extern gesichert und verfügt über ein aktives Fehler Monitoring mit Alarmierung. Wie kann es bei so einem Setup zu Datenverlust kommen? Theoretisch gar nicht, außer es kommen mehrere völlig außergewöhnliche Umstände zusammen.

Am Samstag Nachmittag kam es zu einem Link Loop im Dateisystem. Das führte dazu, dass der Backup Prozess quasi in einer Endlosschleife lief, in der die Datenbank zwar lokal, aber nicht mehr extern gesichert wurde. Es wurde kein Fehleralarm ausgelöst, weil der Prozess ja prinzipiell ordnungsgemäß lief. Da wir kürzlich unsere Backup Kapazität massive erhöht haben dauert es mehrere Tage bis zum Out of Space Error, der auf Grund des Fehlers irgendwann als Folgefehler aufgetreten wäre.

Ich sage immer, dass ein Monitoring auf Fehler nicht ausreicht, weil es elementare Probleme in der IT geben kann, die eben keinen Fehler auslösen. Aus diesem Grund verfügt der Backup Prozess über ein "Missing Positiv Monitoring", d.h. bleibt die Bestätigung über ein erfolgreiches Backup aus löst dies ebenso ein Alarm aus. Diese Alarme brauchen allerdings etwas länger, da bei zu kurzen Intervallen es zu häufig zu Fehlalarmen kommt.

Dieser Alarm erreichte mich am Flughafen kurz vor dem Einsteigen ins Flugzeug auf dem Weg in den Urlaub. Bis hierhin ist das alles noch kein Problem, wenn nicht zwei weitere absolut unwahrscheinliche Ereignisse hinzu gekommen wären.

Bevor ich am Zielort aus dem Hotel eingreifen konnte führte die Strato eine Stromabschaltung für Wartungsarbeiten im Rechenzentrum durch. Das ist ein Ereignis, das vielleicht einmal in zehn Jahren vor kommt, eher seltener. Diese Stromabschaltung führte dazu, dass beide Festplatten im Raid 1 gecrasht sind. Es kommt durchaus häufiger vor, dass Festplatten, die über Jahre durchlaufen, nicht mehr hoch kommen, wenn man sie einmal vom Strom trennt. Ohne Trennung würden sie vermutlich Jahre weiter laufen. Dass aber gleich beide Platten so crashen ist ungewöhnlich.

Ich musste nun entscheiden, das Forum für Tage offline zu lassen, bis ich mit Hilfe von Mitarbeitern im Rechenzentrum in Berlin vielleicht Zugriff auf eine der Platten bekommen hätte oder das Forum mit dem letzten Stand vor dem Link Loop Problem wieder online bringen. Ich habe mich für die letzte Variante entschieden.

Nun zu der Frage wie hätte man das verhindern können? Nur durch ein SLA, ein Service Level Agreement mit garantierter Reaktionszeit. Die Reaktionszeit darf dabei nur so lange sein wie man maximal bereit ist, Datenverlust hinzunehmen. Solche SLAs sind nicht ganz günstig. Einen Ausfall dieser Art würde ich als "Once in a Lifetime" Ereignis bezeichnen. Ich habe in 30 Jahren IT Administration noch nie erlebt, dass so außergewöhnliche Umstände zusammen kommen.

Der Betrieb des Forums wird vollständig aus eigener Tasche bezahlt, Server, Lizenzen, Domains, Backupspeicher und unzählige Stunden an Arbeit. Es gibt so gut wie jeden Tag was zu tun, um das Forum spamfrei zu halten, DSGVO Anfragen zu beantworten oder andere administrative Aufgaben. Ein SLA für Extremereignisse ist da nicht realistisch. Das Forum ist unabhängig und läuft auch nicht auf Synology Hardware. In den letzten 15 Jahre gab es so gut wie keinen Ausfall. Es gibt vermutlich kaum jemanden hier, der sich an eine nennenswerte Downtime erinnern kann.

Um das Risiko für Hardware-Ausfälle zu reduzieren plane ich das Forum demnächst auf eine virtuelle Plattform umzuziehen. Ob das mit vertretbaren Kosten zu machen ist, ist noch nicht ganz klar. Die Anforderungen an die Rechenleistung sind nicht ganz gering. Wir werden sehen.
 

AndiHeitzer

Benutzer
Mitglied seit
30. Jun 2015
Beiträge
2.678
Punkte für Reaktionen
274
Punkte
129
Ort
Markt Schwaben
Hallo Marc, vielen Dank für die Info!

Da war das Timing echt genial, scheint Murphy vollen Einsatz gezeigt zu haben. :cautious:

Ansonsten wünsche ich nun noch einen schönen und ruhigen (Rest-)Urlaub 😌
 

himitsu

Benutzer
Mitglied seit
22. Okt 2018
Beiträge
1.301
Punkte für Reaktionen
71
Punkte
68
Sowas mit dem Backup kenn ich auch grade ... echt blöd, wenn da die Mailbenachrichtigungen zufällig auch grade nicht funktionieren.

Ich kenne noch ein anderes Forum, wo jemand seit fast 20 Jahren es quasi selbst bezahlt (abgesehn von inzwischen etwas geldlicher/händischer Hilfe Einiger)
und wo es im Forum garkeine Werbung gibt ... hier gibt es ja auch fast nichts (praktisch fast keine Banner zu sehn).

Mal aus Interesse, was hatte es mit trilogic auf sich? War ja kurz deren Loginfenster hier zu sehn.
Hätte schon vermutet das ist der Hoster und da dessen Domain auch tot ist ...........


RAID 1 .... sieht'e ... das nächte Mal RAID 6 RAID 666 ;)

Kennst nicht die Futuramafolge mit dem Öltanker?
Alle 6000 Hüllen gebrochen ... hätte man doch 6001 Außenhüllen gebaut.
 
Zuletzt bearbeitet:

RichardB

Benutzer
Mitglied seit
11. Jun 2019
Beiträge
1.990
Punkte für Reaktionen
217
Punkte
89
Höchster Respekt!!!!!
Das Szenario, das Du da beschreibst, ist so unwahrscheinlich, wie ein Sechser im Lotto.
Und ein SLA als nicht ganz günstig zu bezeichnen, ist eine krasse Untertreibung. ;)

Die Schnelligkeit, mit der das Forum wieder online war, ist nach so einem Crash einfach bewundernswert. Und dass jetzt ein paar Posts fehlen, ist denke ich, durchaus verschmerzbar. :D
 

stefann42at

Benutzer
Mitglied seit
17. Jun 2020
Beiträge
43
Punkte für Reaktionen
9
Punkte
8
Alle Achtung

Sowas komplett aus eigener Tasche zu finanzieren und zu administrieren ist sicherlich ein enormer Aufwand - nicht schlecht. Hab selbst ein paar Projekte/Websites am Laufen, die ich komplett selbst am Laufen halte - zwar nicht solch aufwendige, wie dies hier, aber eben selbst… Gratulation erst mal für das Wiederauferstehen (😏) und weiter so…
 

peterhoffmann

Benutzer
Mitglied seit
17. Dez 2014
Beiträge
4.424
Punkte für Reaktionen
706
Punkte
194
Serverausfall hin oder her... so was passiert, hier sogar in 3er Kombination von einem Backupproblem, Steckerzieher und Crash gleich zweier Speichermedien.

Was mir aber gut gefallen hat => Die offenen und klaren Worte.

Danke.
 

Tommes

Benutzer
Mitglied seit
26. Okt 2009
Beiträge
8.126
Punkte für Reaktionen
273
Punkte
249

Kurt-oe1kyw

Benutzer
Mitglied seit
10. Mai 2015
Beiträge
6.772
Punkte für Reaktionen
498
Punkte
209
Danke @Marc für die Infos und das Wiederherstellen vom Forenbetrieb trotz Urlaub!
Aber jetzt genieße deine Urlaubszeit und mach wirklich Urlaub ohne Gedanken an IT Probleme, auch wenn ich jetzt schon weiß das du das nicht schaffen wirst. Das Abschalten der Gendanken an IT meine ich damit, nicht das es Mißverstanden wird.
 

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
169
Punkte für Reaktionen
173
Punkte
93
Noch ein kleines Update: Nach stundenlangen Hardwarechecks konnte ich Zugriff auf das letzte Backup unmittelbar vor der Stromabschaltung bekommen. Jetzt ist das Forum allerdings einen Tag weiter gelaufen und mit dem Einspielen dieser Version würden alle Beiträge von heute verloren gehen. Ich habe offen gesagt nicht damit gerechnet, an diese Version nochmal ran zu kommen, sonst hätte ich das Forum noch einen Tag zu gelassen. Ich gehe davon aus, dass ich die verlorenen Beiträge einspielen kann, aber da ist Handarbeit auf der Datenbank gefragt, das geht nicht automatisch und das kann ich nicht einfach so von unterwegs machen. Wenn ich zurück bin werde ich mich da ran machen. Datenverlust ist sowas was ich überhaupt nich leiden kann ;-)
 

heavy

Benutzer
Mitglied seit
13. Mai 2012
Beiträge
3.306
Punkte für Reaktionen
22
Punkte
104
Ich kann mich an einen Serverausfall erinnern der auch drei Tage dauerte (ui war das war damals echt schlimm für uns) was sich aber seit dem vor allem gebessert hat ist die Anschließende Kommunikation was mit ein Grund ist warum ich dem Forum jetzt seit fast 10 Jahren die Treue halte.
 

himitsu

Benutzer
Mitglied seit
22. Okt 2018
Beiträge
1.301
Punkte für Reaktionen
71
Punkte
68
Wenn nicht grade wer im Urlaub wäre ...

Die neuen Änderungen sind ja weniger, da hätte man bestimmt damit leben können, das Forum jetzt nochmal kurz stillzulegen, das Backup einzupielen und dann die neuen Posts in den alten Stand einzufügen.


Schade eigentlich.
Es gibt ja schon seit jahrzehnten Foren und öfters mal ist schon sowas passiert.
Da hätte es genug Zeit gegeben, dass die Entwickler sowas bereits eingebaut haben könnten, dass man Posts, neue User usw. in einem begrenzten Zeitraum aus einem Backup importieren kann.
Aber neee :(
 

Hallern

Benutzer
Mitglied seit
13. Okt 2021
Beiträge
2
Punkte für Reaktionen
0
Punkte
1
Hui, hatte mich am 11.10 hier registriert, meinen ersten Post abgeschickt, eine Antwort (@Synchrotron ) erhalten aber nicht mehr lesen können.
Hatte mich dann am 13.10 wieder neu angemeldet, aber erst heute meine Mails zur Freischaltung erhalten. ;)

Werde dann später nochmal meinen Thread ins Forum stellen.

Grüße :)
 
NAS-Central - Ihr Partner für NAS Lösungen