DSM 6.x und darunter Volume / Speicherpool / Caches fehlerhaft und blau blinkende LED / Speicher-Manager

Alle DSM Version von DSM 6.x und älter
Status
Für weitere Antworten geschlossen.

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Hallo zusammen,

ich mach mal ein neues Thema auf, nachdem meine Suche keine Zusammenhänge zu obigen Stichworten fand.

Was ist im Prinzip zum 2. Mal passiert? Die DS fährt weder herunter noch startet sie...

Nach erfolgter Datensicherung sollte die DS herunterfahren (per 'poweroff'); tat sie aber nicht. Nach Druck auf den Ein-/Aus-Taster blinkte die blaue LED (des Ein-/Aus-Tasters), aber die DS fuhr über 8 Stunden lang nicht herunter; die blaue LED blinkte weiter und bei genauem Hinhören, war ein sich stetig wiederholendes Festplatten-Zugriffsgeräusch leise zu vernehmen. Wiederholte Tasterbetätigungen änderten nichts.

Nach ca. 3-minütiger Trennung der DS vom Strom fuhr sie auch nicht wieder hoch; die blaue LED blinkte ununterbrochen. Auch der Versuch, mittels erneutem Drücken des Ein-Aus-Tasters ein Herunterfahren zu erreichen, scheiterte erwartungsgemäß.
Denn das Problem kannte ich bereits und das nachfolgende Verhalten ebenfalls.

Erneute Trennung vom Strom.
Ausbau der Festplatte 1. Einschalten. DS fährt hoch und meldet: "Volume 1 defekt oder stürzt ab."
DS herunterfahren: funktioniert.
Einbau Festplatte 1, Ausbau Festplatte 2. Einschalten. DS fährt hoch und meldet: "Volume 1 defekt oder stürzt ab."
DS herunterfahren: funktioniert.
Einbau Festplatte 2, so dass sich nun wieder beide Festplatten in der DS befinden. DS fährt nun hoch und meldet: "Ein oder mehrere Speicherpools / SSD Caches sind fehlerhaft. Wir empfehlen fehlerhafte Laufwerke durch funktionierende zu ersetzen."

Laut "Speicher-Manager", "HDD/SSD" ist Datenträger 1 defekt (= 'initialisiert') und Datenträger 2 = 'normal'. Ich gehe davon aus, dass deshalb "Speicherpool 1" (von 1) defekt ist.
Die Status-LED der DS blinkt orange.

Gemäß der Empfehlung des "Speicher-Manager", "Volume": Reparatur ausgeführt. Nun läuft die DS wieder so wie sie soll und beide Laufwerke befinden sich im Zustand 'normal'.

Befremdlich scheint mir, dass die DS erst nach vorheriger Entfernung einer der Festplatten wieder herunterfährt bzw. starten kann!? Denn das Entfernen einer der Festplatten hat sicherlich keine Fehler behoben; allenfalls einen aktuellen gegenseitigen Konflikt gelöst.
Aber wenn die DS später weiß, welche der Festplatten ok ist und welche nicht und darüber hinaus den vorliegenden Fehler beheben kann?

Daneben wirkt ebenfalls befremdlich, dass der "Speicher-Manager" in keinem der S.M.A.R.T. - Tests (Schnelltest & Erweiterter Test) einen Fehler findet; weder auf Festplatte 1 noch auf Festplatte 2. Sind meine Festplatten also in Ordnung und DSM (BTRFS) hat ein sporadisches Problem?

Darüber hinaus sind die S.M.A.R.T. – Daten aus dem "Speicher-Manager" scheinbar nicht exportierbar. Unter "HDD/SSD", "Protokolle" finden sich lediglich Einträge wie "Datenträger Schreibcache erfolgreich deaktiviert".
Und "HDD/SSD", "Integritätsstatus", "Verlauf" listet zwar die durchgeführten Tests auf, aber der Export beinhaltet dann lediglich die angezeigte Liste ohne irgendwelche Test-Details; wobei nur der CSV-Export die komplette Liste beinhaltet; der HTML-Export beispielsweise beinhaltet von 6 gelisteten Tests nur 5.
Auch die Mail-Mitteilungen aufgrund geplanter Tests beinhalten keinerlei Details.

Sind diese oder ähnliche Probleme bekannt? Gibt es Tipps und Tricks dem Problem nachträglich oder wenn es das nächste Mal auftritt auf die Spur zu kommen?
Meine beiden WDs hätten nämlich noch Garantie – nur welche(n) Fehler sollte ich bemängeln können?


Environment: DS 716+ (Standard), DSM 6.2-23739 Update 2, BTRFS SHR, 2x WD RED (WD50EFRX-68L0BN1, Firmware: 82.00A82).


PS: Kaum geschrieben und schon kündigt sich o.g. Problem erneut an.
Die DS versucht seit rund 45 Minuten herunterzufahren.
Das gibt mir die Möglichkeit zu ergänzen: Die Status-LED leuchtet grün. Die HDD-LEDs sind an - gehen jedoch alle paar Sekunden, meist 2x innerhalb einer Sekunde, aus.

Ich werde bzgl. Herunterfahren des DS noch ein wenig warten, vielleicht hat ja noch jemand einen Tipp.
Falls nicht werde ich die Hot-Swap-Fähigkeiten testen und Festplatte 1 entfernen. Je nach Ergebnis...?
 
Zuletzt bearbeitet:

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Das Problem kündigte sich nicht nur an... DS fährt nicht herunter, blaue LED blinkt.

Hot-Swap: Festplatte 1 entfernt; keine Reaktionen. Festplatte 1 wieder rein und Festplatte 2 entfernt; keine Reaktion. Beide Festplatten entfernt, keine Reaktion.
E-/A-Taster gedrückt: keine Reaktion (jeweils nach > 15 Minuten).

Strom unterbrochen.
Ein neuerlicher Versuch mit beiden Festplatten zu starten scheiterte erwartungsgemäß erneut.
Beide Festplatten entfernt.
Strom unterbrochen, Festplatte 2 eingesetzt: DS startet. Datenträger 2 – normal.
Datenträger 1 hinzugefügt: Speicher-Manager listet ihn nicht.
(Deutet wie zuvor auf einen Defekt von Festplatte 1 hin.)

Noch ein Versuch mit beiden Festplatten zu starten; diesmal über die Web-Oberfläche: DS startet nicht.

Gegenprobe: Festplatte 2 entfernen, Strom unterbrechen und mit E/A-Taster wieder einschalten: DS startet! Nun ist Datenträger 1 – normal. (Was auf einen Defekt von Festplatte 2 hindeuten würde.)
Festplatte 2 hinzugefügt. "Speicher-Manager", "Volume" macht Reparaturvorschlag zur Reparatur von Datenträger 2 / Speicherpool 1: ausführen.
Beide Festplatten werden nun 'normal' gekennzeichnet und die Status-LED blinkt grün.
Soweit gestern Abend.

Heute, ca. 12 Stunden später, läuft die Reparatur offensichtlich noch; HDD-LEDs blinken, Festplattenzugriffsgeräusche, Status-LED grün.
(Gestern Abend mailte die DS eine Verschlechterung einer der beiden Festplatte – ohne jedoch zu sagen, welche!)
Anmeldung an der DS scheitert mehrfach (von mehreren PCs): Die 2-Faktor-Authorisierung behauptet der Code sei falsch. (Codes von zwei 'Authentikatoren' identisch.) Damit dürften Datum / Uhrzeit o.ä. in der DS falsch sein.
Ein User ohne 2-Faktor-Authentication kann sich anmelden. Die File Station startet – und sucht stundenlang ohne Ergebnisse.

Immerhin, die DS lässt sich per E/A-Taster herunterfahren.

Neustart mit Festplatte 2 (wollte eigentlich mit 1 starten): Web Assistent meldet: "Neu installieren. DSM wurde auf Ihrer DS716+ zurückgesetzt, deshalb muss DSM neu installiert werden."
Wollte ich nicht: deshalb heruntergefahren.
Neustart mit Festplatte 1: die gleiche Meldung.

Neuinstallation mit Festplatte 1: ... Volume fehlerhaft oder abgestürzt. S.M.A.R.T.-Test: 'normal', keine Fehler.

Neuinstallationsversuch mit Festplatte 2: blaue LED blinkt.

Selbsttest der DS (einschalten ohne Festplatten etc.): DS startet innerhalb der angegebenen Zeit und blaue LED an.

S.M.A.R.T.-Test mit WD-Diagnostic v1.31: Schnelltests für beide Festplatten: keine Fehler.
Derzeit läuft der Intensivtest mit Festplatte 2, danach mit Festplatte 1.

Dann werde ich weiter sehen - hoffentlich.
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
So, ich bin keinen Schritt weiter.

Der NAS-Selbsttest - wenn man ihn aufgrund der Kürze so nennen darf - signalisiert, dass die DS in Ordnung ist.
Beide Festplatten haben, ebenso wir unter DSM ("Speicher-Manager"), den S.M.A.R.T.-Test mit o.g. WD-Diagnostic fehlerfrei bestanden; sowohl den 'einfachen' wie den 'ausführlichen'.

Damit habe ich 3 Komponenten, die für sich alle in Ordnung sind; NAS, und 2 Festplatten. Im Zusammenspiel jedoch o.g. Fehlerbild zeigen - wobei dieses in den letzten 7 Tagen nun 2x auftrat.

Ist ein ausführlicherer DS-Selbsttest bekannt?

Irgendwelche Ideen?

Prinzipiell habe ich 2 alte Seagates (ST33020620AS) die ich testweise einsetzen könnte. Nur wenn dann der gleiche Fehler wieder auftritt, bin ich dann weiter?
Auch könnte ich eine der WDs neu formatieren, einen Reparaturversuch unternehmen und wenn der erfolgreich ist, die andere WD neu formatieren und wieder reparieren lassen. Das hätte aber nur Sinn, wenn auf den Festplatten etwas gespeichert wäre, was sporadisch den Fehler verursacht.
Wenn das aber nicht zum Ziel führt, müsste die DS kaputt sein - oder man sollte vielleicht die Finger vom BTRFS lassen!?

Jedenfalls habe ich im Windows- und PC-Bereich mehrfach RAIDs (z.B. über 10 Jahre ein RAID 5, RAID1) im Einsatz - und ein solches Desaster nie erlebt. Obwohl man 'Windows' ja keine sehr stabile Basis nachsagt und als tagtäglich genutztes System sicherlich sehr viel mehr Änderungen erlebt.
 

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.137
Punkte für Reaktionen
898
Punkte
424
Smart ist kein absoluter Berater. Wenn es in SMART einen Fehler gibt hat eine Festplatte normal ein Problem, sie kann aber auch ein Problem haben, ohne dass sich dies in den SMART Werten widerspiegelt.
Wie sehen denn die SMART Rohwerte aus, also die Datentabelle?

Ist es die 716+ oder die 716+II?
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Hallo Fusion.

danke für Deine Meldung.

Es ist eine DS716+.

Die SMART-Daten anbei - ich nehme an, Du meintest diese...
 

Anhänge

  • NAS_Datenträger_1_SMART.jpg
    NAS_Datenträger_1_SMART.jpg
    74,5 KB · Aufrufe: 125
  • NAS_Datenträger_2_SMART.jpg
    NAS_Datenträger_2_SMART.jpg
    71,1 KB · Aufrufe: 122

dil88

Benutzer
Contributor
Sehr erfahren
Mitglied seit
03. Sep 2012
Beiträge
29.889
Punkte für Reaktionen
1.172
Punkte
754
Die SMART-Rohdaten sehen m.E. gut aus.
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Ja, ich glaub es wird deutlich, dass ich als Hobby-NAS-Nutzer auch nicht mehr weiter weiß, zumal ich einige Informationen als widersprüchlich empfinde.

Nachdem ich beide Festplatte extern fehlerfrei getestet hatte (WD-Diagnose v1.31) und auch den o.g. NAS-Selbsttest mehrfach durchgeführt hatte, habe ich beide Festplatte wieder eingesetzt.
Und nachdem meine Anmeldung (Post #2) nicht funktionierte und eine DSM-Neuinstallation angeregt wurde, habe ich diese dann doch durchgeführt.
Alles ok.

Danach konnte ich mit beiden Festplatten DSM updaten (auf "Version 2"), Pakete deinstallieren, andere installieren (inkl. NAS shutdown und startup) – allerdings ohne jeweils die Reparatur des Volumes / Speicherpools durchgeführt zu haben! (1)
In dieser Situation war Datenträger 1 immer – normal, Datenträger 2 der fehlerhafte.

Nachdem ich meine letzte Konfiguration wiederhergestellt hatte und alle nicht wiederhergestellten Komponenten korrigiert hatte (Let's Encypt-Zertifikat, umbenannte "Gemeinsame Ordner" inkl. Zugriffsrechten und Verschlüsselung, ...) lief das System mit "Festplatte 1" (und fehlerhafter "Festplatte 2"). (Neue Konfiguration gesichert.)

Daraufhin habe ich die DS heruntergefahren und nur mit "Datenträger 2" gestartet: "Gefahr – Volume 1 abgestürzt!"; Speicherpool 1: 0 Byte / 0 Byte.
Also habe ich Speicherpool 1 (auf Datenträger 2) gelöscht.
Idee: Wenn auf Datenträger 2 etwas nicht stimmt (vorhandene Daten), diesen ggf., platt machen und darauf vertrauen, dass die Volume- / Speicherpool-Reparatur (von Festplatte 1 -> Festplatte 2) funktionieren würde... (2)

Nun läuft die DS mit Systemzustand "Gut" und Speicherpool 1 – Reparatur (hatte ich schon mehrfach). Morgen wird das Ergebnis vorliegen.

Es wenig scheint mir auch der Überblick verloren zu gehen :confused:.


(1): Das hier noch Stolperfallen existieren zeigt, dass obige, installierte Pakete nun nicht mehr vorhanden sind; wahrscheinlich wurden sie auf dem derzeit defekten Datenträger 2 installiert / verblieben dort, der nun überschrieben wird.
Für den Notfall habe ich eine hoffentlich nutzbare Sicherung (HyperBackup; "Lokaler Ordner und USB" sowie "Lokaler Ordner und USB (Einzelversion)" meiner NAS auf externe USB-Festplatte – allein mir fehlt im Moment der Glaube, diese problemlos wiederherstellen zu können; auch der Aufwand ist mir derzeit unklar.

(2): Ich erinnere mich daran, eine defekte Seagate-Festplatte eines RAID 5 (unter Windows) durch Löschung ('Erase') des entsprechenden Laufwerks 'repariert zu haben. Das Raid lief nachfolgend über 7 Jahre fehlerfrei. D.h. hier hatte sich ein, ich nenn es mal 'Konfigurationsfehler', auf der Festplatte manifestiert, der (nur) durch ein komplettes Rebuild der Festplatte durch das RAID-System behoben wurde.
 
Zuletzt bearbeitet:

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
So, die Nacht ist um...

Die Reparatur von Storage Pool 1 war erfolgreich. Aber die DS steht nun im Zustand: "Achtung. DSM kann nicht normal starten, da er auf ein Problem gestoßen ist. Bitte kontaktieren Sie den Synology Kundendienst, um Hilfe zu erhalten."

Dann werde ich die DS mal weiter laufen lassen und abwarten, was der Support so meint.

Falls Ihr Ideen habt oder ein solches Problem kennt, lasst mich teilhaben.

Bis dahin auf jeden Fall schon mal besten Dank.


PS: Zum obigen Punkt (1): Fehlende Pakete lassen sich nicht installieren. Da die File Station angeblich nicht vorhanden ist, wollte ich diese installieren: Das Paketzentrum meldet: "Aktualisierung von "File Station" fehlgeschlagen. Ungültiges Dateiformat." und dieser Installationsversuch endet mit: ""Antivirus Essential" konnte nicht installiert werden. Operation fehlgeschlagen."

PPS: Beim Erstellen des Support-Formulars wollte ich wunschgemäß Protokolle anhängen, aber das Protokoll-Center meldet beim Öffnen ebenfalls "Operation fehlgeschlagen"; es kann offensichtlich die Protokolle (die unter "Benachrichtigungen" angezeigt werden) nicht mehr lesen. Damit dürfte die DS bzw. sein File-System ziemlich defekt sein.
Ich werde nun definitiv abwarten, was der Support meint (und mich wieder melden). In der Hoffnung, dass er herausfinden kann, welche Festplatte(n) defekt ist / sind und dass die DS selbst noch in Ordnung ist.
 
Zuletzt bearbeitet:

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Kleines Update für alle am Thema interessierten...

Meine obige Einschätzung eines 'ziemlich defekten Filesystems' (wegen des nicht möglichen Zugriffs des Protokoll-Centers auf Protokolle und der nicht möglichen Paket-Installationen) war wohl etwas voreilig. Einerseits läuft die DS inkl. Web-Interface etc. ja noch, andererseits kann ich beispielsweise von außen auf meine 'Gemeinsamen Ordner' zugreifen und eine Stichprobe zeigt, dass deren Dateien wohl in Ordnung sind. Damit müsste sich das Problem, wenn es hier liegt, eher auf die System-Partition beziehen.

Neben einem möglichen Festplatten-Defekt hat es in der Vergangenheit auch mal Probleme mit dem internen Speicher gegeben, der ein Hochfahren der DS mit blau blinkender LED verhinderte; konkret mit dem Flash-Speicher. Hier könnte also auch ein Defekt in der DS vorliegen.
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
So, nun bin ich wieder im alleinigen Besitz meiner DS.

Leider bin ich insbesondere bezüglich des ursprünglichen Fehlers 'blaue Power-LED blinkt kontinuierlich und DS fährt nicht herunter oder nicht hoch' genauso schlau oder dumm, wie zuvor.

Der Support hat mir nur mitgeteilt, dass ein Zertifikat nicht mehr vorhanden sei und deshalb einige Applikationen nicht ausgeführt werden können. Ich müsse DSM neu installieren.

Soweit, so gut. Tatsächlich musste ich, wegen 'Verlust der Konfiguration' DSM neu installieren. Danach ließ sich die DS – inkl. Herauf- und Herunterfahren, also ohne 'Volume 1 / Speicherpool 1' - Fehler – normal verwenden.
Den Verlust / die Beschädigung eines Zertifikats mag ich auch nicht in Frage stellen. Aber...

Nachdem in der Vorwoche ja die 2-Faktor-Authentifizierung fehlschlug und danach die DSM schon einmal meldete, die Konfiguration verloren zu haben, hatte ich ja bereits DSM neu installiert. Und kaum dass ich alle wesentlichen Konfigurationen aus einer Sicherung wiederhergestellt hatte und eigentlich nur noch die Konfigurationen der Aufträge fehlten (z.B. HyperBackup), trat der Fehler der 'blau blinkenden Power-LED' wieder auf und in Folge des letzten Reparaturversuchs ('Volume 1 / Speicherpool 1') dann die Situation der fehlenden Pakete und deren Uninstallierbarkeit.
Also ein damit entstandenes Problem eines Zertifikats ist nicht ausgeschlossen.

Da meine Daten auf Volume 1 weiterhin vorhanden sind, wollte ich vorbeugend per "Speicher-Manager" -> "Speicherpool" -> "Datenbereinigung" -> "Aktion" -> "Manuell starten" eine Datenträgerbereinigung durchführen. Zweck: aktuell sicher sein zu können, dass die Festplatteninhalte (BTRFS, RAID-1) identisch und fehlerfrei sind.

Aber die Datenträgerbereinigung lässt sich zwar starten, beendet sich jedoch nach wenigen Sekunden (mit Fortschritt: ~ 0.02%) und meldet danach den Status "Noch nie durchgeführt". Das war's.
Was soll ich davon halten!? Neuer Fehler?

Wenn ich genügend vertrauen hätte und den Aufwand nicht scheuen würde, würde ich meine beiden Festplatten extern formatieren (evtl. 'Erase'), einen laaangen Reset der DS durchführen und das Teil komplett neu aufsetzen. Danach meine gesicherte Konfiguration wiederherstellen, meine HyperBackups zurückspielen und darauf hoffen, den / die Fehler beseitigt zu haben.

Gibt es für Letzteres hilfreiche Tipps und Tricks? Als 'Hobby-NAS-Betreiber' sehe ich schon wieder viele Kleinigkeiten, die ich mir explizit zusammen suchen muss.
Und hat jemand eine Idee, wie ich ggf. feststellen kann, welche von zwei Festplatten ggf. diejenige ist, die in der entsprechenden Situation 'fehlerhaft' ist? (Nochmal zur Erinnerung: nach Entfernen einer der beiden Festplatten (egal welche) zeigt der Speicher-Manager trotz 'Volume 1 / Speicherpool 1' - Fehler die jeweils verbliebene Festplatte als 'normal' an.)

Wie würdet Ihr vorgehen?


PS:
Ich habe nachträglich noch diese Informationen erhalten:
Bzgl. S.M.A.R.T. solle immer der 'Erweiterte Test' durchgeführt werden: Sollte hier eine Festplatte nicht getestet werden können, bleibt bei 90% stehen oder zeigt abnormale Werte, so ist diese Festplatte Defekt,
Ersetzen Sie die kaputte Festplatte, solange Sie noch eine Redundanz haben, und führen Sie dann mit der neuen Festplatte, die in dem folgenden Link erklärten Schritte durch:
https://www.synology.com/de-de/knowledgebase/DSM/help/DSM/StorageManager/storage_pool_repair
 
Zuletzt bearbeitet:

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Update...

DS ist vollständig eingerichtet und funktioniert noch.

'Noch' bezieht sich darauf, dass bei einigen nötigen Neustarts aufgefallen ist, dass die DS den Neustart mal in rund 3 Minuten durchgeführt hat, mal über 5 Minuten braucht. Und, wenn man auf die Zugriffsgeräusche achtet, nach dem deutlich hörbaren rödeln auf den Platten (kurz bevor die DS hochgefahren ist) eine längere Pause mit sich wiederholenden Zugriffsgeräuschen stattfindet.
Ich gehe daher von einem Festplattendefekt aus - bei weiterhin fehlerfreiem S.M.A.R.T.-Test und immer noch ohne zu wissen, welche Festplatte defekt ist.

Eine Ersatzplatte ist bestellt (wieder entsprechend der Synology - Kompatibilitätsliste).
 

Tommi2day

Benutzer
Mitglied seit
24. Aug 2011
Beiträge
1.165
Punkte für Reaktionen
63
Punkte
68
Wenn eine Platte wiederholte versuche braucht um anzulaufen kann es zu solchen Effekten kommen. IdR sieht man dann auch im Systemlog (var/log/messages) timeouts mit Angabe der Platte . Evtl. lässt sich auch eine Änderung bei den Smart Metriken Spin-Up-Time und Spin-retry-Count finden
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Hallo Tommi2day,

vielen Dank für Deinen Hinweis. Wenn ich das, was ich sehe richtig interpretiere, hätte ich mir die Info vom Synology-Support gewünscht.

Also in /var/log/messages finde ich eine Vielzahl von Zeilen mit etwa folgendem Inhalt:
2018-08-05T10:04:18+02:00 DSxxxx kernel: [ xxx.yyyyyy] BTRFS error (device dm-0): BTRFS: dm-0 failed to repair btree csum error on nnnnnnnnnnnnn, mirror = 1
2018-08-05T10:04:18+02:00 DSxxxx kernel: [ xxx.yyyyyy] BTRFS error (device dm-0): BTRFS: dm-0 failed to repair btree csum error on nnnnnnnnnnnnn, mirror = 2
2018-08-05T10:04:19+02:00 DSxxxx kernel: [ xxx.yyyyyy] BTRFS warning (device dm-0): csum failed ino mmmmm off 0 csum nnnnnnnnn expected csum 0
2018-08-05T10:38:54+02:00 DSxxxx kernel: [ xxx.yyyyyy] BTRFS warning (device dm-0): csum failed ino mmmmm off 4096 csum nnnnnnnnn expected csum 0

Weiterhin gibt es viele Zeilen wie:
2018-08-05T__:__:__+02:00 DSxxxx kernel: [ xxxxx.yyyyyy] BTRFS critical (device dm-0): leaf bad key order, block=nnnnnnnnnnnnn, root=7, Slot=180

Das dürfte wohl der Fehler sein!?

Da ich davon ausgehe, dass "dm-0" Festlatte #1 ist, sollte "Datenträger 1" (Slot 1) der Problem-Verursacher sein. Richtig? Und richtig interpretiert?
Eine Suche nach "dm-1" in der Messages brachte keine Treffer.

Jedenfalls vielen Dank!



Ein PS noch: Das oben schilderte Problem, dass die "Datenträgerbereinigung" ("Speicher-Manager" -> "Speicherpool" -> "Datenträgerbereinigung") nicht funktioniert besteht weiterhin. Die Datenträgerbereinigung lässt sich starten, beendet sich aber innerhalb von ca. 10 Sekunden bei einem Fortschritt von 0.00 - 0.02% ohne weitere Meldungen oder Protokolleinträgen. Danach meldet die Datenträgerbereinigung, wie zuvor, den Status "Noch nie durchgeführt". (DSM 6.2-23739 Update 2.)
Sollte das mit der der neuen Festplatte ebenso sein, werde ich ein Support-Ticket eröffnen.
 
Zuletzt bearbeitet:

Tommi2day

Benutzer
Mitglied seit
24. Aug 2011
Beiträge
1.165
Punkte für Reaktionen
63
Punkte
68
BTRS Fehler gehören zum Dateisystem. Das kann ein physischer Fehler auf der Platte sein, aber auch ein Speicher(RAM) Fehler. dm-0 ist ein LVM Devicemapper Device, das nicht unbedingt mit der Disk1 zusammen hängen muss. Die zugehörigen Disks lassen sich mit ein paar Linux befehlen rauskriegen. Eine Zusammenstellung z.B. hier
Ein Call bei Synology ist sicher das Beste. Der BTRFS Fehler erklärt aber nicht unbedingt die Zeiten beim Hochfahren. Dazu wäre es sinnvoll, die Meldungen während des Starts in /var/log/messages oder mit dmesg zu prüfen
 

Fusion

Benutzer
Sehr erfahren
Mitglied seit
06. Apr 2013
Beiträge
14.137
Punkte für Reaktionen
898
Punkte
424
dm-0 ist die DSM Systempartition, RAID-1 über alle internen Laufwerke
dm-1 ist die swap Partition, wra glaube auch RAID-1 über alle internen Laufwerke
dm-2 ist die Datenpartition. Hier ist abhängig welche Konfiguration man im DSM Speichermanager für Diskgruppen/Speicherpools bzw Volumes getroffen hat welches RAID Level diese hat und über wie viele Festplatten diese verteilt sind.

Edit: Hört sich stark nach nicht reparablen Dateisystemfehlern an. Eine mögliche Ursache ist, wenn z.B. niemals ein btrfs data-scrubbing gelaufen ist und sich Inkonsistenzen einschleichen und irgendwann nicht mehr korrigierbar sind. Wurde glaube erst mit DSM 6.2 als geplanter Task eingeführt.
Von daher ist Synology akut wohl der beste Ansprechpartner, falls noch was zu retten ist.
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Vielen Dank ihr Beiden.

Ich habe gestern explizit die /var/log/messages im Zusammenhang mit dem noch offenen Ticket an den Support geschickt (existiert ja erst wieder seit 01.08.). Mal sehen, was die dazu sagen.
Nicht behebbare Inkonsistenzen bzgl. BTRFS-Data-Scrubbing sind schon denkbar - vielleicht funktioniert die Datenträgerbereinigung bei mir deshalb nicht. Aber dann wäre ein Protokolleintrag hilfreich (oder ich find ihn nicht).

Mit aller Vorsicht: Ich habe mir aus dem messages-log mal zwei Teile mit ein paar Zeilen herausgeschnitten, die einen "Neustart" meiner DS protokolliert haben.
In "messages (Bootzeiten - 1.1).txt" wurden nur ca. 8 Sekunden für einen Abschnitt benötigt.
In "messages (Bootzeiten - 2.1).txt" wurden ca. 163 Sekunden für den 'gleichen' Abschnitt benötigt. Nimmt man an, dass diese Schleife auch 'unendlich lang' laufen könnte, wäre mein Ursprungsfehler mit der dauerhaft 'blau blinkenden Power-LED' beim Start erklärt; entsprechendes müsste dann nur noch für das Herunterfahren übertragbar sein.
Bleibt also weiterhin die Frage: welcher Datenträger der Übeltäter ist - oder ob es auch ein Speicher sein könnte?
 

Anhänge

  • messages (Bootzeiten - 1.1).txt
    3,2 KB · Aufrufe: 1
  • messages (Bootzeiten - 2.1).txt
    5,2 KB · Aufrufe: 1

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Antwort vom Support:
Die SMART-Daten werden im LOG nicht abgelegt.
Es wird empfohlen zunächst mit dem erweiterten SMART-Tests alle Festplatten zu prüfen und dann DSM neu zu installieren. ;-)
Und quasi als Beleg:
2018-08-01T02:43:36-07:00 DiskStation kernel: [ 115.461547] BTRFS error (device dm-0): BTRFS: dm-0 failed to repair btree csum error on 2995851001856, mirror = 1
2018-08-01T02:43:36-07:00 DiskStation kernel: [ 115.461547]

Nun, dumm nur, dass ich schon vor 2 Wochen DSM neu installierte und auch am 2018-08-01 - nachdem ich meine DS 'vom Support' zurück hatte.
So wird das vermutlich nichts.

Dennoch hatte ich die erweiterten S.M.A.R.T.-Tests erneut angestoßen; der auf Festplatte 2 läuft noch und wird vermutlich ebenfalls mit 'Ok' beendet werden.

Aufgrund Eurer Informationen werde ich dann Folgendes tun:
Um sicher zu stellen, dass meine DS auch herunterfährt (ohne dass ich den Stromstecker ziehen muss), werde ich Festplatte 1 entfernen (Hotswap) und die DS neu starten.
Danach DS wieder herunterfahren, Festplatte 1 einsetzen und Festplatte 2 entfernen und DS neu starten.

Danach werde ich noch einmal in die /var/log/messages rein schauen. In der Hoffnung, dass oben genannte BTRFS-Fehler bei einer der beiden Festplatten signifikant öfter auftreten; im Idealfall bei einer Festplatte gar nicht.
Die Festplatte mit den meisten Fehlereinträgen sollte dann die Defekte sein.

Sollte das zu keinem Ergebnis führen kann ich entweder warten bis der ursprüngliche Fehler erneut auftritt und die, dann im Speicher-Manager als 'fehlerhaft' gemeldete, Festplatte austauschen und sehen wie es weiter geht (in der Vergangenheit wurde jede der Beiden schon mal als 'fehlerhaft' (Volume / Speicherpool) gekennzeichnet).
Oder einfach auf gut Glück eine der beiden Platten austauschen... Und jeweils die Logs in der messages kontrollieren.
Sollten bei beiden (alten) Festplatten die BTRFS-Fehler auftreten, mit der Neuen aber nicht, hätte ich Probleme mit beiden alten Platten.

Soweit die Theorie. Über die Praxis werde ich berichten.
 

Tommi2day

Benutzer
Mitglied seit
24. Aug 2011
Beiträge
1.165
Punkte für Reaktionen
63
Punkte
68
in File2: erst wartet er 15s auf eth1, dann ca, 1.5min auf die Postgresql DB und mit dem nginx stimmt anschliessend auch was nicht.
 

_Joachim_

Benutzer
Mitglied seit
05. Jun 2016
Beiträge
62
Punkte für Reaktionen
0
Punkte
0
Bzgl. meines Posts #17 hatte ich eine tolle Theorie - nur die Praxis widerlegt diese.

Zunächst wurden auch die letzten beiden erweiterten S.M.A.R.T.-Tests völlig fehlerfrei beendet; d.h. alle Status aller IDs / Attribute beider Festplatten lauten: OK.

Nach jeweils fehlerfreiem Herunterfahren, dem Entfernen der einen, dann der anderen Festplatte werden in /var/log/messages beim Hochfahren jeweils eine Vielzahl von BTRFS-Fehlern aufgelistet. Das ist also eine Sackgasse.

Morgen wird die neue Festplatte ankommen. In der Hoffnung noch mal einen Tipp bzgl. 'defekter Festplatte' vom Support zu bekommen, werde die dann ersetzen; falls kein Hinweis vom Support kommt, kann ich mir aussuchen, welche ich ersetze. DSM werde ich - danke Tommi2day - dann wohl erneut neu installieren müssen. Denn wenn ich meine Ergebnisse richtig verstehe, stimmen die Datensätze auf beiden Festplatten irgendwie nicht.
Allerdings verstehe ich langsam auch BTRFS nicht mehr - vielleicht hatten die Kritiker recht mit ihrem: Lass die Finger davon.

Einzige weitere Möglichkeit ist abzuwarten, ob sich erneut deutliche, nun 'brummige', Festplattengeräusche ergeben - dann werde ich Eine entfernen. Wenn dann die Geräusche weg sind, war's hoffentlich die Richtige.



PS: Ist es möglich mit einer Festplatte zu starten und erst später auf ein RAID-1 umzustellen? Egal ob ext4 oder BTRFS?
Die Idee ist, DSM zunächst nur auf der neuen Festplatte zu installieren und - wenn alles fehlerfrei läuft - erst danach auf RAID-1 mit 'ner 2. Festplatte umzustellen.
(Sorry, habe die Suche im Moment nicht bemüht.)
 
Zuletzt bearbeitet:

Ramihyn

Benutzer
Mitglied seit
14. Mai 2017
Beiträge
332
Punkte für Reaktionen
60
Punkte
34
Mir scheint das Problem nicht an den Platten zu liegen, sondern am Diskcontroller oder am RAM der Diskstation. Warum?
Weil das Fehlerbild eben ziemlich eindeutig genau nicht einer der beiden Platten zugeordnet werden kann und du dauernd diese scheinbaren Inkonsistenzen im Filesystem hast.

Besteht für dich die Möglichkeit, die Platten mal direkt an einem Linux-PC (z.B. normaler PC mit Knoppix- oder Disinfec't-CD booten) zu starten und auf DER Ebene zu prüfen?
Da du ja nur spiegelst, sollte es ein Leichtes sein, die verschiedenen BTRFS-Partitionen damit mal durchzuchecken. Wenn das dann keine Fehler zutage fördert (was ich fast schon erwarte), hast du die HDDs aus der Rechnung endgültig raus.

Und so spannend und interessant ich deine mühevolle Recherchearbeit für die Community hier auch finde, stellt sich bei einer "billigen" DS716+ inzwischen durchaus die Frage nach der Wirtschaftlichkeit der Mühsal. Inzwischen wäre es wohl selbst mit einem Mindestlohnjob unter Opportunitätskosten die Neuanschaffung der Büchse preisgünstiger als die investierte Zeit.

PS: Ist es möglich mit einer Festplatte zu starten und erst später auf ein RAID-1 umzustellen? Egal ob ext4 oder BTRFS?
Ja, das geht.
 
Status
Für weitere Antworten geschlossen.
 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat