Hilfe, mein Schwe... meine Festplatte stirbt - nach 9700 Stunden

  • Ab sofort steht euch hier im Forum die neue Add-on Verwaltung zur Verfügung – eine zentrale Plattform für alles rund um Erweiterungen und Add-ons für den DSM.

    Damit haben wir einen Ort, an dem Lösungen von Nutzern mit der Community geteilt werden können. Über die Team Funktion können Projekte auch gemeinsam gepflegt werden.

    Was die Add-on Verwaltung kann und wie es funktioniert findet Ihr hier

    Hier geht es zu den Add-ons

Ausschalten und die Nummer prüfen, mach ich so oder so auf jeden Fall. Müsste aber definitiv Laufwerk /Schacht 1 sein, die Festplatte ist 2 Wochen vom Kauf her älter und hat gut 300 Stunden mehr auf der Uhr. Mein innerer Monk hat die garantiert in Schacht 1 rein ;)

....sofern die Kiste runterfährt; wieso hab ich mir das schon fast gedacht, dass selbst das zum Problemchen wird....
Edit: 15 Minuten später - fährt immer noch runter.
 
Zuletzt bearbeitet:
bei mir hat mal ein DS211+ ca 3.5h gebraucht bis es ausgeschaltet war. Da war damals auch was defekt mit einer Platte
 
Befürchte auch, dass das etwas dauern wird

Nun denn, die neue Platte dreht jetzt erst mal ein paar Stunden ihre Runden.DOM ist März, Garantie bis April 2028. Zumindest da nicht beschissen worden ;) (von dem Seatgate Skandal hört man irgendwie auch nix mehr..)

E: sicher ist auf jeden Fall, falls die Kiste irgendwann mal aus sein sollte, dass ich die mit der defekten Platte nicht mehr starten werde. Dauert sonst ja vermutlich wieder ein Tag, oder so.
 
Zuletzt bearbeitet:
  • Like
Reaktionen: dil88
als das alles so lange ging, habe ich einfach den POwer Knopf laaange gedrückt, dann war es aus und alles OK
 
Bin jetzt eh erst mal unterwegs, soll die Kiste mal machen. Vielleicht schreibt sie mir das freie TB jetzt auch mit i/o Protokollen voll, wer weiß 😂
 
Werde gerade bombardiert mit avtive Insight Meldungen und Mails.

Offenbar hat sich die Kiste wieder neu gestartet statt abgeschaltet 🙄

Edit: Laufwerk 1 (die richtige tote) ist komplett weg. Wird nur noch die Platte 2, die die ich heute morgen unverzüglich tauschen sollte (...) angezeigt.
 
Zuletzt bearbeitet:
Dann zieh halt Laufwerk 1 hart raus und tausche es. Die stört wohl so komplett, dass alles spinnt. Ich hoffe, ein Backup hast du?
 
So, wieder daheim. Zaghaftes Piepsen, wirklich kaum wahrnehmbar.

Und tatsächlich hat die DS die Bezeichnung der Laufwerke nach dem (wieso auch immer Neustart) geändert; aus /dev/sata2 (der "guten" Platte) wurde nun /dev/sata1 (die vorherige "Defekte") - wobei die Bezeichnung "Laufwerk 2" bei der nun als /sata1 laufenden identisch geblieben ist. Irritierenderweise leuchtet nun auch die "Disk 1" an der Front, Disk 2 ist aus... unnötig verwirrend, aber was solls. Bei der aktuell verbleibenden "guten" leuchtet bei "Identifizieren" die Disk 2-LED; also Disk / Schacht 1 ausgefallen.

(Diese unnötige und verwirrende Änderung der sata-Bezeichnung und LED Anzeige ändert aber nix an der Tatsache, dass mir die DS heute morgen kurzzeitig Disk 2 inkl. der Seriennummer der nun laufenden Platte "Laufwerk 2" als defekt und zum sofortigen Austausch "vorgeschlagen" hat)


Nun denn, bevor ich die Sache jetzt angehe, muss ich jedenfalls noch kurz was essen... Die DSM Oberfläche ist nun jedenfalls schon mal wieder zügig unterwegs.

Edit: nach "identifizieren" leuchtet nun dauerhaft Disk 2, und Disk 1 ist aus... verwirrend...

Edit2: Und ja klar, Backup vorhanden.
 
Zuletzt bearbeitet:
So, noch mal kurz die Smartwerte beider Platten in der DS gecheckt - ok.

Rebuild läuft!
1747417225301.png


Und die defekte Platte, joar. Läuft an, macht Geräusche (eine Art leises Vogelzwitschern aus der Ferne) im Abstand von 7-8 Sekunden und das wars.
Wird nicht mehr erkannt im Partitionsmanager oder Diskpart.
 
  • Like
Reaktionen: dil88
Sodelle, Punkt 2 Uhr war die Reperatur abgeschlossen, ohne Fehler, wie es scheint. Ich lass jetzt noch ne Datenbereinigung laufen, und dann laufen hoffentlich beide Platten dieses Mal länger als ein Jahr - vorallem die Neue.

Was Synology angeht - WIR MÜSSEN REDEN!! S.M.A.R.T -
Self-Monitoring, Analysis and Reporting Technology (SMART bzw. S.M.A.R.T., deutsch System zur Selbstüberwachung, Analyse und Statusmeldung) ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD) und dient der Vorhersage eines möglichen Ausfalls des Speichermediums. - wikipedia
hat, meines Erachtens, funktioniert - wie vorgesehen. Nur die DS und DSM haben es ignoriert. Und die kurze Meldung, die funktionsfähige Platte sei defekt und ich solle sie unverzüglich ersetzen, geht gar nicht! Was auch nicht funktioniert hat, ist die Einstellung im Speichermanager "Warnung zu fehlerhaften Sektoren - Das System wird Sie benachrichtigen, wenn sich die Anzahl fehlerhafter Sektoren erhöht". Zumindest ich versteh die Meldung so, dass ich sofort eine Benachrichtigung bekomme, also auch bei 0 auf 1 und nicht erst, wenn der Wert bei 100 oder so ist.

Hier noch mal die letzten Werte der Platte, bevor sie komplett abgeraucht ist:
Code:
ID# ATTRIBUTE_NAME                                                   FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate                                              0x002f   110   110   051    Pre-fail  Always       -       4392
  3 Spin_Up_Time                                                     0x0027   204   204   021    Pre-fail  Always       -       2766
  4 Start_Stop_Count                                                 0x0032   100   100   000    Old_age   Always       -       72
  5 Reallocated_Sector_Ct                                            0x0033   191   191   140    Pre-fail  Always       -       411
  7 Seek_Error_Rate                                                  0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours                                                   0x0032   087   087   000    Old_age   Always       -       9737
 10 Spin_Retry_Count                                                 0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count                                          0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count                                                0x0032   100   100   000    Old_age   Always       -       71
192 Power-Off_Retract_Count                                          0x0032   200   200   000    Old_age   Always       -       2
193 Load_Cycle_Count                                                 0x0032   199   199   000    Old_age   Always       -       5100
194 Temperature_Celsius                                              0x0022   115   101   000    Old_age   Always       -       32
196 Reallocated_Event_Count                                          0x0032   001   001   000    Old_age   Always       -       319
197 Current_Pending_Sector                                           0x0032   200   200   000    Old_age   Always       -       79
198 Offline_Uncorrectable                                            0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count                                             0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate                                            0x0008   200   200   000    Old_age   Offline      -       0

Was ich auch merkwürdig finde, dass alle Logs zu Laufwerks I/O Fehler allesamt das Datum und Uhrzeit 01.01.1970 01:00:00 haben, obwohl andere Logs die korrekte Zeit haben (auch intern in den üblichen Linux Logs, die wollte Synology haben)
Nun denn. Warte ich mal, was von Synology kommt.

Aber in diesem Sinne, schönes Wochenende - und Danke für eure mehr oder weniger un/freiwillige Teilnahme ;)

Achja, was WD angeht, da hab ich noch keine Antwort bekommen, also auch noch kein vorfranktiertes Retouren-Label "aus Kulanz".

Edit: Achso, die defekte Platte werd ich mal noch direkt am PC und internen SATA-Port testen, sowie mit Linux - hab da aber eigentlich keine Hoffnung mehr...
 
Zuletzt bearbeitet:
also es ist eher wahrscheinlich dass eine Platte am Anfang ihrer Lebenserwartung defekt wird als später. Das ist eben die technische Wahrscheinlichkeit, wird oft auch als Badewannen Kurve bezeichnet. Technische Geräte gehen sehr häufig am Anfang ihres Lebens defekt , dann werden die Defekte selten, erst am Schluss der Lebenserwartung vermehren sich die Defekte wieder langsam.

Meldungen dass eine Platte wirklich defekt ist wirst du wohl erst dann bekommen wenn sich die Platte gar nicht meldet, dann ist halt pool etc degraded und das wird eine Warnung provozieren. Ansonsten wird es Warnungen geben wenn zum Bsp eine der Partitionen eben nicht mehr korrekt erscheint. Smart Werte, na ja, wir schauen die an, Synology hat die Anzeige der SMART vor einiger Zeit abgestellt, damit 'die User nicht verwirrt werden'. Vermutlich gibt es seit dem auch keine Warnung wenn mal ein Sektor defekt wird.
Ja, man kann einige defekte Sektoren haben, damit ist aber keine Platte defekt. Die kann weiter noch 10 Jahre bestens funktionieren. Darum wird heute wohl nicht bei jedem Sektor eine Warnung ausgegeben, sondern nur wenn die Defekte in einer kurzen Zeitspanne schnelle ansteigen vermute ich.

Ja, hier kann man denken was sich da so die Synology erlaubt mir keine Warnung schicken, aber hast du schon mal so eine Warnung von einem PC bekommen?
Bei mir liegen im Regal viele ältere Laptops. Von w3.1 über w95, w98 w2k, xp, w7 und etwas Linux. Wenn ich da versuche mit Test Programmen die Platten anzuschauen, dann haben manche tatsächlich diverse defekte Sektoren. Die Laptops haben dies aber nie gemerkt oder gemeldet.
 
Naja, bei Windows steht rechts unten aufm Desktop oder unter "Computer" aber halt auch nicht "In Ordnung" ;)
Dass ein Storage Server/NAS die Daten auch auswertet, darf man denke ich einfach erwarten - dafür sind sie da. Dass eine Platte auch so ausfallen kann ohne auffällige Werte, steht außer Frage - war hier aber nicht so. Selbst die Synology KI vom Support hat mir bescheinigt: "Die von Ihnen beschriebenen Symptome (hohe I/O-Wait, langsame Oberfläche, steigende Fehlerwerte) deuten sehr klar auf einen Festplattendefekt hin. Auch wenn DSM nicht immer sofort eine Warnung ausgibt, ist der Austausch bei solchen SMART-Werten dringend angeraten."
- sehr klar,
- Austausch dringend angeraten
... aber halt nicht drauf hinweisen.
(auch lustig: "Die Anzeige der SMART-Werte im DSM wurde in neueren Versionen angepasst, um die Übersichtlichkeit zu verbessern." - angepasst, soso.)

Und mir dann halt auch noch zu sagen, das funktionsfähige Laufwerk sei defekt und ich solle es tauschen (mit der genannten Seriennummer der noch funktionsfähigen Platte. Das war nicht nur eine Anzeige tausch Laufwerk xy, sondern mit genannter Seriennummer) geht halt wirklich gar nicht.

Abgesehen davon war die Kiste unabhängig von SMART auch quälend langsam, auch sowas könnte die DS vermutlich selbst "merken". Ich sehe leider den Verlauf der alten Platte nicht mehr, aber vermutlich war sie die ganze Zeit auf 100% Auslastung. Da hab ich leider auch nicht dran gedacht, den Verlauf anzuschauen.

Ich werd die Platte jetzt mal noch direkt am PC intern anstöpseln und mit Windows un dLinux Mint Live testen - aber ich glaub, das wars.
 
wow, eine defekte Platte und schon 72 Einträge, nachdem im #9 eigentlich schon alles gesagt wurde... ich hole mir Popcorn....
 
  • Like
Reaktionen: mayo007
Und jetzt?
Auch an dich den Hinweis, zwingt dich keiner es zu lesen oder zu antworten 🙄
 
Ich muss sagen, dass ich die detaillierten Infos zum Hergang hier sehr interessant find. Danke @patrickn dafür
Letztendlich bleibt zusammenfassend zu sagen, dass DSM es hier absolut verkackt hat. Es wurde schlicht die Tatsache ignoriert, dass eine Platte nachweislich am Sterben ist. Und das bei einem File-Server! Da braucht es keine KI oder Cloud-Analyse mit Active Insight. Das ist ein simples Abprüfen von Werten aus den SMART-Daten.
Aber was soll ich sagen. Nicht anders hab ich es erwartet und nicht anders habe ich es in der Vergangenheit erlebt. Damals blieb dem Laien zumindest noch der Blick in die SMART-Tabelle per GUI
 
So, vermutlich die abschließende Meldung von Synology:

(...)
We have carefully reviewed the shutdown issue you encountered on May 16th, and it appears that power-off related services timed out due to serious disk errors on drive 1[1].
(...)
Additionally, the critical status on drive 2 suddenly seems to be related to a temporary inability of the system to query the disk information properly.
(....)
Code:
[1]
info    2025/05/16 12:03:58    patrick:    System started counting down to shutdown.
info    2025/05/16 14:42:15    SYSTEM:    System started to boot up.
warning    2025/05/16 14:43:23    SYSTEM:    System booted up from an improper shutdown.

2025-05-16T12:02:55+02:00 DiskStation kernel: [8365348.657704] ata1.00: status: { DRDY ERR }
2025-05-16T12:02:56+02:00 DiskStation kernel: [8365348.661888] ata1.00: error: { UNC }
2025-05-16T12:02:56+02:00 DiskStation kernel: [8365348.714174] blk_update_request: I/O error, dev sata1, sector 5596120 op 0x0:(READ) flags 0x800 phys_seg 1 prio class 0
2025-05-16T12:02:56+02:00 DiskStation kernel: [8365348.737375] read error corrected, md0, sata1p1 index [0], sector 5587928 [fix_read_error]
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.260873] ata1.00: exception Emask 0x0 SAct 0xa0000 SErr 0x0 action 0x0
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.267837] ata1.00: irq_stat 0x40000000
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.271983] ata1.00: failed command: READ FPDMA QUEUED
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.277308] ata1.00: cmd 60/08:98:e8:63:55/00:00:00:00:00/40 tag 19 ncq dma 4096 in
         res 41/40:00:e8:63:55/00:00:00:00:00/00 Emask 0x409 (media error) <F>
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.293539] ata1.00: status: { DRDY ERR }
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.297721] ata1.00: error: { UNC }
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.350032] blk_update_request: I/O error, dev sata1, sector 5596136 op 0x0:(READ) flags 0x0 phys_seg 1 prio class 0
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.360719] read error, md0, sata1p1 index [0], sector 5587944 [raid1_end_read_request]
2025-05-16T12:03:01+02:00 DiskStation kernel: [8365354.368907] md/raid1:md0: sata1p1: rescheduling sector 5587944
2025-05-16T12:03:11+02:00 DiskStation kernel: [8365363.953864] ata1: Error caused by TLER, retry command
2025-05-16T12:03:11+02:00 DiskStation kernel: [8365363.959099] ata1.00: exception Emask 0x0 SAct 0x20 SErr 0x0 action 0x0
2025-05-16T12:03:11+02:00 DiskStation kernel: [8365363.965842] ata1.00: irq_stat 0x40000000
2025-05-16T12:03:11+02:00 DiskStation kernel: [8365363.969949] ata1.00: failed command: READ FPDMA QUEUED
2025-05-16T12:03:11+02:00 DiskStation kernel: [8365363.975264] ata1.00: cmd 60/08:28:20:a3:11/00:00:01:00:00/40 tag 5 ncq dma 4096 in
         res 41/40:00:20:a3:11/00:00:01:00:00/00 Emask 0x409 (media error) <F>

systemd.log

2025-05-16T12:10:48+02:00 DiskStation systemd[1]: Stopping Synology shutdown task...
(...)
2025-05-16T12:18:30+02:00 DiskStation systemd[1]: syno_disk_latency_record_writeback.service stopping timed out. Terminating.
2025-05-16T12:18:30+02:00 DiskStation systemd[1]: syno-poweroff-task.service stopping timed out. Terminating.
2025-05-16T12:18:30+02:00 DiskStation systemd[1]: Stopped Synology shutdown task.
2025-05-16T12:18:30+02:00 DiskStation systemd[1]: Unit syno-poweroff-task.service entered failed state.
2025-05-16T12:18:30+02:00 DiskStation systemd[1]: syno-poweroff-task.service failed.
(...)
025-05-16T12:38:06+02:00 DiskStation systemd[1]: Job poweroff.target/start timed out.
2025-05-16T12:38:06+02:00 DiskStation systemd[1]: Timed out starting Power-Off.
2025-05-16T12:39:25+02:00 DiskStation systemd[1]: Job poweroff.target/start failed with result 'timeout'.
2025-05-16T12:39:25+02:00 DiskStation systemd[1]: Forcibly powering off as result of failure.
2025-05-16T12:39:25+02:00 DiskStation systemd[1]: Shutting down.

Was die fehlerhafte 1970-Zeit im Protokoll angeht bei den i/o Fehlern, wird mir empfohlen, die CMOS Batterie zu tauschen. Wobei ich das wohl ehrlich gesagt eher nicht machen werde; die Zeiten stimmen davor, danach, und auch mittendrin - sieht man ja auch im "internen" Protokoll oben - die Zeiten stimmen.


Was WD angeht, die haben Wort gehalten und ein UPS Label geschickt, aus "Kulanz", versteht sich - die Platte ist also auf dem Weg nach Tschechien.
 

Additional post fields

 

Kaffeautomat

Wenn du das Forum hilfreich findest oder uns unterstützen möchtest, dann gib uns doch einfach einen Kaffee aus.

Als Dankeschön schalten wir deinen Account werbefrei.

:coffee:

Hier gehts zum Kaffeeautomat