Diskstatus "kritisch" zurücksetzen

dpprdan · 22. Dez 2023

In meiner DS220+ (DSM 7.2.1-69057 Update 3) wird mir seit gestern der Status eines Laufwerks, eine Seagate Exos X16 12TB (ST12000NM003G) als "kritisch" angezeigt. "Beim Zugriff auf das Laufwerk sind Fehler aufgetreten."
Vor drei Tagen hatte ich mehrere "Das System hat einen unerwarteten Stromausfall auf Laufwerk 2 in Volume 1 erkannt." Meldungen. Daraufhin habe, wie empfohlen, den Schreib-Cache deaktiviert.

Ich vermute für beides als Ursache, dass das Netzteil nicht richtig an der DS angeschlossen war und aufgrund dieses Wackelkontakts die Spannung für das Anlaufen der HDD nicht ausreichte. (Beim Anheben der DS fiel der Netzteilstecker hinten einfach runter).

Ansonsten scheint mit der HDD alles in Ordnung zu sein, denn die S.M.A.R.T. Tests (auch einmal "erweitert") laufen ohne Probleme durch, Testergebnis "in Ordnung". Ich würde sie nur sehr ungern tauschen wollen, bei gerade einmal ~1300 Betriebsstunden.

Nun meine Fragen:

Ich finde die Details zu den S.M.A.R.T. nicht. Die sollten doch unter Speicher-Manager > HDD/SSD > Laufwerk > Integritätsstatus > S.M.A.R.T. > Details zu finden sein? Nur, "Details" gibt es bei mir nicht, auch nicht beim nicht betroffenen Laufwerk. Werden die nicht mehr angezeigt oder gucke ich falsch?
Kann ich den Status wieder zurückstellen, damit ich das Volume (SHR-1, BTRFS) reparieren kann? DSM verweigert verständlicherweise die Reparatur auf ein defektes Laufwerk. Nur in diesem Fall scheint der Grund für den Fehler doch eher ein Wackelkontakt als eine defektes Laufwerk zu sein.

Zum Zurücksetzen habe schon diesen und jenen Thread gesehen. Ich habe die Protokolleinträge für "Laufwerke" und "Allgemein" gelöscht (wobei bei mir unter "Laufwerke" keine Meldungen mit Status "Fehler" vorhanden waren, nur unter "Allgemein"), aber auch nach einem Neustart wird der Status noch als kritisch angezeigt. Das scheint also nicht mehr zu funktionieren (siehe auch hier). Fällt Euch noch eine andere Möglichkeit ein, via CLI zum Beispiel?

Bei "Anzahl der Neuverbindungen von Laufwerk" und "Anzahl fehlerhafter Sektoren" ist der Wert jeweils auch 0.

dil88 · 22. Dez 2023

Bitte keine SMART-Tests machen, die belasten die Laufwerke nur unnötig. SMART-Daten werden kontinuierlich von der Platte geschrieben, Du musst sie nur abfragen. Das geht mit DSM 7.2 leider nicht mehr im DSM, weil Synology die Möglichkeit deaktiviert hat - ärgerlicherweise.

Du kannst die SMART-Werte aber per ssh-Kommandozeile abfragen, z.B. mit folgendem Kommando:

Code:

sudo smartctl -A -d sat /dev/sata2

Schau Dir die Werte an. Falls Du Dich damit nicht so auskennst, dann poste sie hier.

plang.pl · 22. Dez 2023

Genau. Einmal bitte SMART Werte prüfen / posten. Dann wenn die ok sind, kannst du die Einträge im Protokoll-Center leeren, um den Status zu resetten.

dpprdan · 22. Dez 2023

Danke Euch, SMART Werte einmal hier:

Code:

smartctl 6.5 (build date Sep 26 2022) [x86_64-linux-4.4.302+] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME                                                   FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate                                              0x000f   077   064   044    Pre-fail  Always       -       55054108
  3 Spin_Up_Time                                                     0x0003   090   090   000    Pre-fail  Always       -       0
  4 Start_Stop_Count                                                 0x0032   098   098   020    Old_age   Always       -       2404
  5 Reallocated_Sector_Ct                                            0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate                                                  0x000f   069   060   045    Pre-fail  Always       -       7540357
  9 Power_On_Hours                                                   0x0032   099   099   000    Old_age   Always       -       1320
 10 Spin_Retry_Count                                                 0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count                                                0x0032   098   098   020    Old_age   Always       -       2363
 18 Head_Health                                                      0x000b   100   100   050    Pre-fail  Always       -       0
187 Reported_Uncorrect                                               0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout                                                  0x0032   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel                                          0x0022   067   059   040    Old_age   Always       -       33 (Min/Max 33/34)
192 Power-Off_Retract_Count                                          0x0032   100   100   000    Old_age   Always       -       32
193 Load_Cycle_Count                                                 0x0032   099   099   000    Old_age   Always       -       2393
194 Temperature_Celsius                                              0x0022   033   041   000    Old_age   Always       -       33 (0 20 0 0 0)
197 Current_Pending_Sector                                           0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable                                            0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count                                             0x003e   200   200   000    Old_age   Always       -       0
200 Pressure_Limit                                                   0x0023   100   100   001    Pre-fail  Always       -       0
240 Head_Flying_Hours                                                0x0000   100   253   000    Old_age   Offline      -       1304h+51m+48.223s
241 Total_LBAs_Written                                               0x0000   100   253   000    Old_age   Offline      -       4761086443
242 Total_LBAs_Read                                                  0x0000   100   253   000    Old_age   Offline      -       9028145441

plang.pl schrieb:
kannst du die Einträge im Protokoll-Center leeren, um den Status zu resetten

Ja, das hatte ich schon versucht, ohne Erfolg, s.o.

dil88 schrieb:
Bitte keine SMART-Tests machen, die belasten die Laufwerke nur unnötig.

Habe ich inzwischen auch schon gelesen. Auch komisch, dass Synology dann einen erweiterten Test anbietet. Was macht der wohl genau?

plang.pl · 22. Dez 2023

Für mich sieht die Platte gut aus

dil88 · 22. Dez 2023

Ja, die SMART-Daten sind völlig ok.

ctrlaltdelete · 22. Dez 2023

Die HDD ist sauber.

dpprdan · 22. Dez 2023

Ja, jetzt brauche ich nur noch eine Möglichkeit, den Status des Laufwerks zurückzusetzen.

Benie · 22. Dez 2023

Protokolle mit den Fehlermeldungen löschen. Müsste reichen.

dpprdan · 22. Dez 2023

Benie schrieb:
Protokolle mit den Fehlermeldungen löschen. Müsste reichen.

Das reicht leider nicht, s.o.

Edit:
Ich vermute, dass das seit ~ DSM 7.2 nicht mehr funktioniert, sondern die Information, dass ein Laufwerk fehlerhaft ist, irgendwo anders abgelegt wird.
z.B. steht bei mir in /var/lib/space/space_table "faulty_disks":["DISK_SERIENNUMMER"]. Das gleiche in /etc/space/space_table/space_table_*. Wenn man die editiert, werden sie nach dem Reboot allerdings wieder überschrieben...

plang.pl · 22. Dez 2023

Gibt's die Datei auch in /etc.defaults?
Dann würd ich die dort mal ändern. Das ist so ein "Spezial-Synology-Verzeichnis"

dil88 · 22. Dez 2023

Nein, ich habe gleich nachgesehen, es gibt bereits das Verzeichnis space nicht unter etc.defaults.

ctrlaltdelete · 22. Dez 2023

Dort habe ich nichts gefunden:

ctrlaltdelete · 22. Dez 2023

@dpprdan Kannst du die Datenbereinigung auf dem Laufwerk laufen lassen?
Edit: Siehe hier: https://administrator.de/forum/syno...quittieren-4131097722.html#comment-4137927073

dpprdan · 24. Dez 2023

@ctrlaltdelete Leider nein. Die Speicherpool-Ansicht sieht so aus:

Reparieren mag er nicht, weil das Laufwerk "defekt" ist.

Und richtig, /etc.defaults/space/ existiert nicht. grep -r "MEINE_LAUFWERKSSERIENNUMMER" /etc.defaults/ findet auch nichts.

ctrlaltdelete · 24. Dez 2023

Ich würde das Laufwerk mal extern löschen/formatieren.

synfor · 24. Dez 2023

Ist das Laufwerk 2 immer noch dem Speicherpool zugeordnet? Falls ja, dann deaktivieren, raus und wieder rein. Geht dann die Reparatur immer noch nicht, dann kann man das Laufwerk immer noch extern löschen.

dpprdan · 11. Jan 2024

synfor schrieb:
Ist das Laufwerk 2 immer noch dem Speicherpool zugeordnet? Falls ja, dann deaktivieren, raus und wieder rein.

Haha, das war es wirklich! Vielen Dank @synfor!
Anleitung: Speicher-Manager > HDD/SDD > (Betroffenes Laufwerk markieren) > Aktion > Laufwerk deaktivieren. Danach muss der Speicherpool noch repariert werden.

dpprdan schrieb:
z.B. steht bei mir in /var/lib/space/space_table "faulty_disks":["DISK_SERIENNUMMER"]. Das gleiche in /etc/space/space_table/space_table_*. Wenn man die editiert, werden sie nach dem Reboot allerdings wieder überschrieben...

Der Vollständigkeit halber gibt es den gleichen Eintrag auch in /run/space/space_table. Dieser scheint auch von der Synology GUI gelesen zu werden, d.h. unter Speicher-Manager > HDD/SDD wird das Laufwerk wieder als lauffähig angezeigt, wenn man die Seriennummer hier bei "faulty_disks": löscht. Damit lässt sich das Volume aber noch nicht reparieren und einen Reboot übersteht die Änderung auch nicht.

Aber egal, die Lösung war einfach "Laufwerk deaktivieren". Danke an alle!

Suche

Diskstatus "kritisch" zurücksetzen

dpprdan

Benutzer

dil88

Benutzer

plang.pl

Benutzer

dpprdan

Benutzer

plang.pl

Benutzer

dil88

Benutzer

ctrlaltdelete

Benutzer

dpprdan

Benutzer

Benie

Benutzer

dpprdan

Benutzer

plang.pl

Benutzer

dil88

Benutzer

ctrlaltdelete

Benutzer

Anhänge

ctrlaltdelete

Benutzer

dpprdan

Benutzer

ctrlaltdelete

Benutzer

synfor

Benutzer

dpprdan

Benutzer

Kaffeautomat