Serverausfall

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
186
Punkte für Reaktionen
199
Punkte
93
Ich möchte euch ein paar Hintergrundinformationen geben, wie es trotz Raid, umfangreicher Backup Strategie und aktivem Monitoring zu dem Ausfall und einem Datenverlust von drei Tagen kommen konnte. Es ist ein gutes Beispiel dafür, dass in der IT manchmal Dinge, die man praktisch für unmöglich hält, passieren können, wenn nur genügend ungünstige Umstände zusammen treffen.

Das Forum läuft auf einem Raid1, wird alle zwei Stunden mehrfach extern gesichert und verfügt über ein aktives Fehler Monitoring mit Alarmierung. Wie kann es bei so einem Setup zu Datenverlust kommen? Theoretisch gar nicht, außer es kommen mehrere völlig außergewöhnliche Umstände zusammen.

Am Samstag Nachmittag kam es zu einem Link Loop im Dateisystem. Das führte dazu, dass der Backup Prozess quasi in einer Endlosschleife lief, in der die Datenbank zwar lokal, aber nicht mehr extern gesichert wurde. Es wurde kein Fehleralarm ausgelöst, weil der Prozess ja prinzipiell ordnungsgemäß lief. Da wir kürzlich unsere Backup Kapazität massive erhöht haben dauert es mehrere Tage bis zum Out of Space Error, der auf Grund des Fehlers irgendwann als Folgefehler aufgetreten wäre.

Ich sage immer, dass ein Monitoring auf Fehler nicht ausreicht, weil es elementare Probleme in der IT geben kann, die eben keinen Fehler auslösen. Aus diesem Grund verfügt der Backup Prozess über ein "Missing Positiv Monitoring", d.h. bleibt die Bestätigung über ein erfolgreiches Backup aus löst dies ebenso ein Alarm aus. Diese Alarme brauchen allerdings etwas länger, da bei zu kurzen Intervallen es zu häufig zu Fehlalarmen kommt.

Dieser Alarm erreichte mich am Flughafen kurz vor dem Einsteigen ins Flugzeug auf dem Weg in den Urlaub. Bis hierhin ist das alles noch kein Problem, wenn nicht zwei weitere absolut unwahrscheinliche Ereignisse hinzu gekommen wären.

Bevor ich am Zielort aus dem Hotel eingreifen konnte führte die Strato eine Stromabschaltung für Wartungsarbeiten im Rechenzentrum durch. Das ist ein Ereignis, das vielleicht einmal in zehn Jahren vor kommt, eher seltener. Diese Stromabschaltung führte dazu, dass beide Festplatten im Raid 1 gecrasht sind. Es kommt durchaus häufiger vor, dass Festplatten, die über Jahre durchlaufen, nicht mehr hoch kommen, wenn man sie einmal vom Strom trennt. Ohne Trennung würden sie vermutlich Jahre weiter laufen. Dass aber gleich beide Platten so crashen ist ungewöhnlich.

Ich musste nun entscheiden, das Forum für Tage offline zu lassen, bis ich mit Hilfe von Mitarbeitern im Rechenzentrum in Berlin vielleicht Zugriff auf eine der Platten bekommen hätte oder das Forum mit dem letzten Stand vor dem Link Loop Problem wieder online bringen. Ich habe mich für die letzte Variante entschieden.

Nun zu der Frage wie hätte man das verhindern können? Nur durch ein SLA, ein Service Level Agreement mit garantierter Reaktionszeit. Die Reaktionszeit darf dabei nur so lange sein wie man maximal bereit ist, Datenverlust hinzunehmen. Solche SLAs sind nicht ganz günstig. Einen Ausfall dieser Art würde ich als "Once in a Lifetime" Ereignis bezeichnen. Ich habe in 30 Jahren IT Administration noch nie erlebt, dass so außergewöhnliche Umstände zusammen kommen.

Der Betrieb des Forums wird vollständig aus eigener Tasche bezahlt, Server, Lizenzen, Domains, Backupspeicher und unzählige Stunden an Arbeit. Es gibt so gut wie jeden Tag was zu tun, um das Forum spamfrei zu halten, DSGVO Anfragen zu beantworten oder andere administrative Aufgaben. Ein SLA für Extremereignisse ist da nicht realistisch. Das Forum ist unabhängig und läuft auch nicht auf Synology Hardware. In den letzten 15 Jahre gab es so gut wie keinen Ausfall. Es gibt vermutlich kaum jemanden hier, der sich an eine nennenswerte Downtime erinnern kann.

Um das Risiko für Hardware-Ausfälle zu reduzieren plane ich das Forum demnächst auf eine virtuelle Plattform umzuziehen. Ob das mit vertretbaren Kosten zu machen ist, ist noch nicht ganz klar. Die Anforderungen an die Rechenleistung sind nicht ganz gering. Wir werden sehen.
 

AndiHeitzer

Benutzer
Mitglied seit
30. Jun 2015
Beiträge
2.751
Punkte für Reaktionen
306
Punkte
129
Ort
Markt Schwaben
Hallo Marc, vielen Dank für die Info!

Da war das Timing echt genial, scheint Murphy vollen Einsatz gezeigt zu haben. :cautious:

Ansonsten wünsche ich nun noch einen schönen und ruhigen (Rest-)Urlaub ?
 

himitsu

Benutzer
Mitglied seit
22. Okt 2018
Beiträge
1.738
Punkte für Reaktionen
121
Punkte
83
Sowas mit dem Backup kenn ich auch grade ... echt blöd, wenn da die Mailbenachrichtigungen zufällig auch grade nicht funktionieren.

Ich kenne noch ein anderes Forum, wo jemand seit fast 20 Jahren es quasi selbst bezahlt (abgesehn von inzwischen etwas geldlicher/händischer Hilfe Einiger)
und wo es im Forum garkeine Werbung gibt ... hier gibt es ja auch fast nichts (praktisch fast keine Banner zu sehn).

Mal aus Interesse, was hatte es mit trilogic auf sich? War ja kurz deren Loginfenster hier zu sehn.
Hätte schon vermutet das ist der Hoster und da dessen Domain auch tot ist ...........


RAID 1 .... sieht'e ... das nächte Mal RAID 6 RAID 666 ;)

Kennst nicht die Futuramafolge mit dem Öltanker?
Alle 6000 Hüllen gebrochen ... hätte man doch 6001 Außenhüllen gebaut.
 
Zuletzt bearbeitet:

RichardB

Benutzer
Mitglied seit
11. Jun 2019
Beiträge
2.004
Punkte für Reaktionen
222
Punkte
109
Höchster Respekt!!!!!
Das Szenario, das Du da beschreibst, ist so unwahrscheinlich, wie ein Sechser im Lotto.
Und ein SLA als nicht ganz günstig zu bezeichnen, ist eine krasse Untertreibung. ;)

Die Schnelligkeit, mit der das Forum wieder online war, ist nach so einem Crash einfach bewundernswert. Und dass jetzt ein paar Posts fehlen, ist denke ich, durchaus verschmerzbar. :D
 

stefann42at

Benutzer
Mitglied seit
17. Jun 2020
Beiträge
64
Punkte für Reaktionen
13
Punkte
8
Alle Achtung

Sowas komplett aus eigener Tasche zu finanzieren und zu administrieren ist sicherlich ein enormer Aufwand - nicht schlecht. Hab selbst ein paar Projekte/Websites am Laufen, die ich komplett selbst am Laufen halte - zwar nicht solch aufwendige, wie dies hier, aber eben selbst… Gratulation erst mal für das Wiederauferstehen (?) und weiter so…
 

peterhoffmann

Benutzer
Mitglied seit
17. Dez 2014
Beiträge
4.524
Punkte für Reaktionen
743
Punkte
194
Serverausfall hin oder her... so was passiert, hier sogar in 3er Kombination von einem Backupproblem, Steckerzieher und Crash gleich zweier Speichermedien.

Was mir aber gut gefallen hat => Die offenen und klaren Worte.

Danke.
 

Tommes

Benutzer
Mitglied seit
26. Okt 2009
Beiträge
8.178
Punkte für Reaktionen
300
Punkte
249

Kurt-oe1kyw

Benutzer
Mitglied seit
10. Mai 2015
Beiträge
6.865
Punkte für Reaktionen
538
Punkte
234
Danke @Marc für die Infos und das Wiederherstellen vom Forenbetrieb trotz Urlaub!
Aber jetzt genieße deine Urlaubszeit und mach wirklich Urlaub ohne Gedanken an IT Probleme, auch wenn ich jetzt schon weiß das du das nicht schaffen wirst. Das Abschalten der Gendanken an IT meine ich damit, nicht das es Mißverstanden wird.
 

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
186
Punkte für Reaktionen
199
Punkte
93
Noch ein kleines Update: Nach stundenlangen Hardwarechecks konnte ich Zugriff auf das letzte Backup unmittelbar vor der Stromabschaltung bekommen. Jetzt ist das Forum allerdings einen Tag weiter gelaufen und mit dem Einspielen dieser Version würden alle Beiträge von heute verloren gehen. Ich habe offen gesagt nicht damit gerechnet, an diese Version nochmal ran zu kommen, sonst hätte ich das Forum noch einen Tag zu gelassen. Ich gehe davon aus, dass ich die verlorenen Beiträge einspielen kann, aber da ist Handarbeit auf der Datenbank gefragt, das geht nicht automatisch und das kann ich nicht einfach so von unterwegs machen. Wenn ich zurück bin werde ich mich da ran machen. Datenverlust ist sowas was ich überhaupt nicht leiden kann ;-)
 

heavy

Benutzer
Mitglied seit
13. Mai 2012
Beiträge
3.343
Punkte für Reaktionen
26
Punkte
114
Ich kann mich an einen Serverausfall erinnern der auch drei Tage dauerte (ui war das war damals echt schlimm für uns) was sich aber seit dem vor allem gebessert hat ist die Anschließende Kommunikation was mit ein Grund ist warum ich dem Forum jetzt seit fast 10 Jahren die Treue halte.
 

himitsu

Benutzer
Mitglied seit
22. Okt 2018
Beiträge
1.738
Punkte für Reaktionen
121
Punkte
83
Wenn nicht grade wer im Urlaub wäre ...

Die neuen Änderungen sind ja weniger, da hätte man bestimmt damit leben können, das Forum jetzt nochmal kurz stillzulegen, das Backup einzupielen und dann die neuen Posts in den alten Stand einzufügen.


Schade eigentlich.
Es gibt ja schon seit jahrzehnten Foren und öfters mal ist schon sowas passiert.
Da hätte es genug Zeit gegeben, dass die Entwickler sowas bereits eingebaut haben könnten, dass man Posts, neue User usw. in einem begrenzten Zeitraum aus einem Backup importieren kann.
Aber neee :(
 

Hallern

Benutzer
Mitglied seit
11. Okt 2021
Beiträge
14
Punkte für Reaktionen
3
Punkte
59
Hui, hatte mich am 11.10 hier registriert, meinen ersten Post abgeschickt, eine Antwort (@Synchrotron ) erhalten aber nicht mehr lesen können.
Hatte mich dann am 13.10 wieder neu angemeldet, aber erst heute meine Mails zur Freischaltung erhalten. ;)

Werde dann später nochmal meinen Thread ins Forum stellen.

Grüße :)
 
  • Like
Reaktionen: Synchrotron

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
186
Punkte für Reaktionen
199
Punkte
93
An der Seite wurden heute einige Änderungen vorgenommen, Updates Backend / Frontend, etc und die verlorenen Beiträge vom Serverausfall sind wieder da. Ganz unten gibt es ein eigenes Restore Forum dafür. Von da müssen sie neu einsortiert bzw. mit bestehenden Threads gemerged werden. Das werden wir nach und nach machen.

Es gibt aber noch eine große Änderung. Wer findet sie? Ansonsten wird es bald ein Mitteilung dazu geben ;)

Wenn was nicht funktioniert bitte melden. Am Backend wurde viel verändert.
 

himitsu

Benutzer
Mitglied seit
22. Okt 2018
Beiträge
1.738
Punkte für Reaktionen
121
Punkte
83
Ich glaub das dritte Pixel da links ist anders.

Hab ganz unten, im Blauen, nach dem Forum gesucht. 🙈

Und, wie war der Urlaub?
 

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
186
Punkte für Reaktionen
199
Punkte
93
Alle zurück gespielten Beiträge, die zu bestehenden Threads gehören wurden in diese einsortiert. Die Threads, die jetzt noch im Restore-Forum stehen sind eigenständige Threads.

Jetzt bräuchte ich mal eure Hilfe, sonst bin ich da ewig dran. Schaut euch die Threads bitte mal an und meldet diese mit dem Vermerk, in welches Forum sie gehören. Dann verschiebe ich sie dahin. Wenn ein paar mitmachen und jeder ein paar Threads meldet sind wir da schnell durch.
 

AndiHeitzer

Benutzer
Mitglied seit
30. Jun 2015
Beiträge
2.751
Punkte für Reaktionen
306
Punkte
129
Ort
Markt Schwaben
Wenn ein paar mitmachen und jeder ein paar Threads meldet sind wir da schnell durch.
Wäre ich dort in den Themen beteiligt gewesen, hätte ich schon helfen können. :unsure:
 

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
186
Punkte für Reaktionen
199
Punkte
93
Einfach kurz in einen Thread einlesen und schauen wo er hin passt. Das wäre eine große Hilfe, um die Fäden schnell einzusortieren.
 

AndiHeitzer

Benutzer
Mitglied seit
30. Jun 2015
Beiträge
2.751
Punkte für Reaktionen
306
Punkte
129
Ort
Markt Schwaben

Marc

Administrator
Teammitglied
Mitglied seit
17. Dez 2006
Beiträge
186
Punkte für Reaktionen
199
Punkte
93
Super, besten Dank. Die Threads sind verschoben.
 
  • Like
Reaktionen: AndiHeitzer

plang.pl

Benutzer
Mitglied seit
28. Okt 2020
Beiträge
912
Punkte für Reaktionen
182
Punkte
69
Ort
Bamberg
  • Like
Reaktionen: peterhoffmann
NAS-Central - Ihr Partner für NAS Lösungen