Alle RAID5 Platten eines Storage Pools einer Extension sind auf einmal crashed

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
Vorhin habe ich per Teamviewer auf eine DS1817 mit 2 Extensions gesehen und dort waren alle 5 Platten einer Extension in einerm Storagepool crashed :mad:

Die Daten konnten noch gelesen werden und wurden gesichert. Ein reboot aenderte nichts am Status. Danach versuchten wir - wie von Syno vorgeschlagen wird - die Platten zu deaktivieren. Ging nicht mit einer Fehlermeldung dass zu viele Fehler aufgetreten sind. Jetzt haben wir mal einen extended SMART Test fuer 2 Platten des RAID5 gestartet der angibt ca 10 Stunden zu brauchen. Interessanterweise sind beide Platten auf denen jetzt ein extended SMART Test gstartet wurde im Storagemanager wieder gruen statt rot wie die anderen drei.

Merkwuerdig ist dass mit einem Male alle 5 Platten des RAIDs der Extension IO Errors melden aber immer noch alle Daten gelesen werden koennen. Statistisch ist es sehr unwahrscheinlich dass alle 5 Platten mit einem Mal ausfallen.

1) Kann es sein dass die Extension (sie sollte ca 5 Jahre alt sein) einen HW Defekt hat? Mir wurde berichtet dass es seit kurzem (vermutlich seit dem Crash) einen sehr hohen (ca 18kHz) sich leicht variierenden Ton geben soll.
2) Oder kann es sein dass das Verbindungskabel zwischen DS1817 und der Extension Kontaktprobleme bekommen hat durch Korrosion o.ae.?
3) Oder kann z.B. Staub der sich waehrend der Zeit in der Extension und den Platten angesammelt hat solch einen Effekt hervorrufen?
4) Oder hat noch jemand eine Idee was sonst noch die Ursache sein kann?

Jetzt warten wir mal ab was der SMART Test morgen als Ergebnis liefert.

Was waere denn jetzt die angeratene Strategie fortzufahren?
 

maxblank

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Nov 2022
Beiträge
2.429
Punkte für Reaktionen
1.196
Punkte
224
Kann es sein, dass jemand das Kabel getrennt und wieder angesteckt hat?

Kabel eventuell defekt?

Es ist ja schon extrem seltsam, dass es nur eine Erweiterungseinheit betrifft.

Ansonsten mal die SMART-Werte von allen Platten als Screenshot posten. Keinen erweiterten SMART-Test machen. Die Last ist zu hoch für das gecrashte RAID.

Wie ist das RAID mit den Erweiterungseinheiten aufgebaut? Intern und extern als ein Pool?

Welche Platten sind verbaut?

Welche DSM-Version?

Backup vorhanden?

Es fehlen Infos ohne Ende!
 
Zuletzt bearbeitet:
  • Like
Reaktionen: Benie

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
Es fehlen Infos ohne Ende!
Ich weiss ☹️. Das System ist aber remote in einer anderen Zeitzone und ich habe keinen direkten DSM Zugriff um alle Infos zusammenzutragen. Nur indirekt per Teamviewer :cautious:
Kann es sein, dass jemand das Kabel getrennt und wieder angesteckt hat?
War eine meiner ersten Fragen. Nein. Deshalb meine Vermutung dass vielleicht Korrosionsprobleme die Ursache sind.

Kabel eventuell defekt?
Kann ein Kabel so ploetzlich defekt werden? Deshalb meine Vermutung auf Kontaktprobleme durch Korrosion.
Backup vorhanden?
Hatte ich oben geschrieben: Alle Daten konnten in einen anderen Storage Pool kopiert werden.

Wie ist das RAID mit den Erweiterungseinheiten aufgebaut? Intern und extern als ein Pool?
Das RAID5 befindet sich komplett auf der Extension.

Ansonsten mal die SMART-Werte von allen Platten als Screenshot posten. Keinen erweiterten SMART-Test machen. Die Last ist zu hoch für das gecrashte RAID.
Too late :(. Auf zwei Platten wird ein extended test ausgefuehrt. Der Besitzer schlaeft jetzt und der Test kann nicht mehr gestoppt werden.

Die anderen Infos bringe ich morgen.
 

Thonav

Benutzer
Sehr erfahren
Mitglied seit
16. Feb 2014
Beiträge
7.878
Punkte für Reaktionen
1.503
Punkte
274
Kann es sein, dass versehentlich das Kabel gezogen wurde?
 

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
War ja auch meine erste Frage. Nein war die Antwort. Aber sollte z.B. ein Kabelkontaktproblem der Grund sein... Wie kann man dann den Storagepool wieder mit einem gereinigten oder neuen Kabel reaktivieren?
 
Zuletzt bearbeitet von einem Moderator:

maxblank

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Nov 2022
Beiträge
2.429
Punkte für Reaktionen
1.196
Punkte
224
Hab ich oben bereits gefragt.

Kopie nach einem Crash hat nichts im Entferntesten mit einem Backup zu tun.
Wenn du dir Sorgen über Korrosion machst, wo steht das Konstrukt? In einer Tropfsteinhöhle? Sorry, der musste sein. 😉

Edit: Dann warten wir die notwendigen Infos mal ab.
 

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
:LOL:

Wie schon allgemein festgestellt wurde ist es schon sehr merkwuerdig dass alle 5 Platten eines RAID5 ploetzlich Probleme machen. Da sie alle auf einer Extension liegen liegt die Vermutung nahe dass es ein Extension HW Problem ist oder die Verbindung zur Extension problematisch geworden ist. Das mit der Korrosion ist einfach eine moegliche Ursache die ich sehe. Keine Ahnung ob die Kabelkontakte aus Gold sind.
 
Zuletzt bearbeitet von einem Moderator:

Rotbart

Benutzer
Contributor
Sehr erfahren
Mitglied seit
04. Jul 2021
Beiträge
1.440
Punkte für Reaktionen
427
Punkte
109
Wird die Einheit durch eine USV geschützt ? Hängt die an der selben Stromquelle wie der Rest des Systems ? Das Fiepen könnte ja auch darauf hindeuten das ein Bauteil im Netzteil bzw. auf dem Board aus dem letzten Loch pfeift.
 
  • Like
Reaktionen: maxblank

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
Wird die Einheit durch eine USV geschützt ?
Nein :-(

Hängt die an der selben Stromquelle wie der Rest des Systems ?
Soweit ich weiss - ja.

Das Fiepen könnte ja auch darauf hindeuten das ein Bauteil im Netzteil bzw. auf dem Board aus dem letzten Loch pfeift.
Sehe ich auch so. Wir muessen morgen mal die Extension ausschalten und testen ob das Fiepen aus der Extension kommt. Solche hochfrequenten Toene sind leider schwer bis gar nicht zu lokalisieren.
 

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
2 Platten sind gemaess Extended SMART Test ok. Jetzt werden die 3 anderen Platten noch getestet um zu verifizieren dass nicht doch 2 Platten den Geist aufgegeben haben. Das ist zwar unwahrscheinlich aber leider nicht unmoeglich.

Gesetzt den Fall alle 5 Platten sind noch OK. Kann man das RAID5 noch recovern ohne es neu aufzusetzen?

Klar muss nach der Ursache geforscht werden bevor man dem RAID wieder vertraut.

Liste der moegliche Ursachen des RAID crashes die wir gerade sehen:

1) Kabelverbindung zur Extension weak
2) Extension HW Problem
3) Extension Netzteil Problem
4) Memory Problem der 1817
5) Extension verstaubt ? Kann das eine Ursache sein? Ich hatte mal von ein paar Jahren meine DSPlay418 geoeffnet und eine Menge Staub aus dem Kiste entfernt. Ueber die Jahre saugen die Luefter schon eine Menge Staub an.

Faellt Euch noch ein anderer moeglicher Grund ein?
 

maxblank

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Nov 2022
Beiträge
2.429
Punkte für Reaktionen
1.196
Punkte
224
Ob du es so wieder in Betrieb nehmen kannst, wird DSM anzeigen. Wird eine Reparaturmöglichkeit angezeigt?
 

metalworker

Benutzer
Contributor
Sehr erfahren
Mitglied seit
25. Apr 2023
Beiträge
2.203
Punkte für Reaktionen
625
Punkte
154
ich tippe eher auf ein Netzteil Problem der Extension.
Wäre Interessant zu sehen was der Speichermanager genau schreibt
 
  • Like
Reaktionen: Holli_NOM

Synchrotron

Benutzer
Sehr erfahren
Mitglied seit
13. Jul 2019
Beiträge
4.733
Punkte für Reaktionen
1.694
Punkte
214
Unabhängig von der Fehlerursache würde ich dem RAID nur noch ungerne vertrauen.

Wenn der Fehler gefunden wurde, würde ich es neu aufsetzen. Wenn die Platten i.o. sind, können die vorhandenen Platten verwendet werden, aber mit neuem Setup. Ob in der gleichen oder einer anderen DX bleibt der Risikofreude des Betreibers überlassen.

Die Stromversorgung sollte auf alle Fälle durch eine USV abgesichert werden.
 

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
Unabhängig von der Fehlerursache würde ich dem RAID nur noch ungerne vertrauen.
Das sehe ich aehnlich.
Wenn der Fehler gefunden wurde, würde ich es neu aufsetzen.
Ja ... guter Punkt. Bevor das RAID neu aufgesetzt wird sollte die Ursache gefunden werden. Nur was ist die Ursache ... gibt diverse Moeglichkeiten ...

Interessanterweise wurde der extended SMART Tests auf die letzten 3 Platten sehr schnell mit "interrupted" beendet. Jetzt wurden 3 Platten parallel getestet. Davor wurden 2 parallel getested und der Test lief durch. Fuer mich riecht das danach dass das Netzteil nicht mehr genug Power hat alle Platten ausreichend mit Strom zu versorgen ...

Wir werden jetzt die extended Tests sequentiell durchfuehren um einfach mal die Platten durchzupruefen.
Die Stromversorgung sollte auf alle Fälle durch eine USV abgesichert werden.
Greift die auch wenn das Netzteil einer Extension muckelt?
 

Rotbart

Benutzer
Contributor
Sehr erfahren
Mitglied seit
04. Jul 2021
Beiträge
1.440
Punkte für Reaktionen
427
Punkte
109
Nee, aber sie schützt das Netzteil z.b. vor Überspannung.
 

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
D.h. eine USV schuetzt zwar vor Stromausfall und Ueberspannungen aber nicht davor dass das versorgende Netzteil des jeweiligen Geraetes die Loeffel streckt ?

Jetzt wo ich darueber nachdenke ist das natuerlich klar denn die USV sorgt nur dafuer dass alle Netzteile weiterhin ihren Saft bekommen. Wenn das Netzteil wg HW Problemen nicht mehr den benoetigten Saft liefern kann ist die USV unschuldig.
 
  • Like
Reaktionen: Synchrotron

ctrlaltdelete

Benutzer
Sehr erfahren
Maintainer
Mitglied seit
30. Dez 2012
Beiträge
10.104
Punkte für Reaktionen
3.644
Punkte
414
Sicherheit im Netzteil bekommst du nur durch Redundanz, also NAS mit zwei Netzteilen. Erkennst du bei Synology am Kürzel RP.
 

framp

Benutzer
Mitglied seit
19. Feb 2016
Beiträge
903
Punkte für Reaktionen
64
Punkte
54
4 Platten sind jetzt durch den extendended SMART Test gelaufen. Die 5te Platte macht Probleme. Immer wieder bricht relativ schnell der Test mit disconnected ab.

Jetzt haben wir mal alle anderen 4 Platten aus der Extension rausgenommen und den extendended Test wieder gestartet auf die 5te Platte. Mal sehen ob der Test jetzt durchlaeuft.

Die 4 anderen Platten habe alle einen hoeheren UDAM_crc_error count um die 2000. Anbei die SMART Werte einer Platte. Die anderen sehen aehnlich aus. Platte 5 fehlt natuerlich noch.

Wir haben auch die 5te Platte aus dem RAID rausgezogen und eigentlich sollte ein RAID5 doch noch laufen wenn eine Platte failed (Annahme: Die 5te Platte ist defekt). Warum faellt dann ein gesamter RAID5 Storage Pool aus?

Ist schon merkwuerdig das Ganze ...
 

Anhänge

  • 1.PNG
    1.PNG
    26,1 KB · Aufrufe: 21

synfor

Benutzer
Sehr erfahren
Mitglied seit
22. Dez 2017
Beiträge
8.593
Punkte für Reaktionen
1.434
Punkte
288
Das sieht mir eher so aus, als ob die Erweiterungseinheit einen Treffer hat. Die Werte sind bis auf ID199 unauffällig.

Die Werte bekommt man auch ohne Tests.
 

Benie

Benutzer
Sehr erfahren
Mitglied seit
19. Feb 2014
Beiträge
5.987
Punkte für Reaktionen
2.009
Punkte
259
Steckverbindung oder Anschlußkabel defekt. Der HDD fehlt eigentlich nichts. evtl. Kontakte reinigen.
 


 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat