Zustand von Speicherpool hat sich verschlechtert

himitsu · 28. Juli 2021

Ja, ich weiß, dass es schon mehrere Threads dazu gibt, aber meine Fragen wurden nicht bantwortet.

aktuelles NAS+Platten ist jetzt knapp 2,5 Jahre alt, wobei die ProblemPlatte erst 1,5 Jahre läuft (3x 8TB WD RED + 1x 8TB USB für Backup)
und bisher lief alles eigentlich problemlos, auch S.M.A.R.T-Tests und Co. hatten auch noch nichts gemeldet, außer
- mehrmals Stromausfall, sowie rausgeflogene Sicherung
- vor etwa einem Monat war die DS zur Sicherheit runtergefahren - SSD im Cache war zu warm geworden (70°C), da unten die Zuluft teilweise nicht mehr ganz offen war
das NAS läuft eigentlich durch (nur in den zu seltenen Momenten wo mal länger nichts auf der HDD rumkramt, gehen die HDDs schlafen)
ich hab aktuell kein Vollbackup (nur das Wichtigte auf USB)
aber da ich jetzt die Wahl hab, wüsste ich gern, ob was "garantiert" kaputt geht, wenn ich auf [Reparieren] klicke, oder ob ich mir doch noch vorher eine zusätzliche oder größere Backupplatte besorge
- wie gesagt, im RAID fehlt die Platte komplett (sie wird aktuell als "nicht zugeordnet" angezeigt) und damit seh ich jetzt nichts, wo ich "Diese ersetzen" sagen könnte

Gestern kurz nachdem ich auf Arbeit bin (etwa 0,5 Stunden danach) tauchte diese Meldung auf (laut Log), was ich dann abends bemerkte, als das NAS mich anpiepte. (eine Mail wäre versendet worden, aber da gibt es grade irgendein Problem, drum anschließend noch die Meldung dass die Mail nicht rausging)

Die Platte ist einfach so spurlos verschwunden, auch aus der RAID-Config raus (DS nicht runtergefahren/neugestartet).
Vorallem das Letzte darf doch garnicht passieren?
Hatte sie abends kurz am PC, aber keine Probleme gefunden und als sie wieder im NAS steckte, wird sie nun angezeigt, aber so, wie eine neue noch nicht zugewiesene Platte.

Ich hatte vorh Jahren mal getestet, als das NAS noch neu war und wo ich noch bissl gefahrlos rumspielen konnte, wie das so läuft, wenn eine Platte "verschwindet" und wie das mit dem "reparieren" abläuft.
Da wurde aber die "Platte" mit Fehlermeldung noch im System angezeigt und ich konnte eine andere Platte dafür einsetzen und damit reparieren/ersetzen.

Jetzt ist die (alte) Platte nicht im RAID. Es gibt zwar einen reparieren Knopf, aber was macht der nun jetzt?

repariert der bloß mit den beiden verbleibenden Platten? (danach wäre ja alles futsch, außer der macht ein RAID 0 daraus)
oder wird die neue Platte (eigentlich die Alte, aber die wird ja beim Einbinden eh neu überschieben) angefordert, wenn ich auf reparieren klicke
oder muß ich erst die neue Platte zum RAID hinzufügen und dann reparieren

Eigentlich würde ich auch ja gern wissen, warum es passiert ist, denn wie soll man sonst rausbekommen, ob/wann es nochmal passieren kann.

Benachrichtigungen / Protokol-Center / synosys.log:
Storage Pool [1] was degrade [2/3], please repair it.
bzw.
Zustand von Speicherpool XYZ hat sich verschlechtert.

SpeicherManager / disklog*.csv:
garnichts, außer dann Abends die Meldung über entfernen und anstecken der Platte, wo ich sie mir angesehn hatte, aber vormitags und seit Tagen kein Eintrag

disk.log und kern.log (vollständig im Anhang ... früh der Fehler und Abends, als ich sie zum Testen rausgenommen hatte)
2021-07-27T10:07:09+02:00 ************* kernel: [632330.728088] ata1: device unplugged sstatus 0x0
2021-07-27T10:07:09+02:00 ************* kernel: [632330.743182] ata1.00: exception Emask 0x50 SAct 0x300 SErr 0x4090800 action 0xe frozen
2021-07-27T10:07:09+02:00 ************* kernel: [632330.752064] ata1.00: irq_stat 0x00400040, connection status changed
2021-07-27T10:07:09+02:00 ************* kernel: [632330.759196] ata1: SError: { HostInt PHYRdyChg 10B8B DevExch }
2021-07-27T10:07:09+02:00 ************* kernel: [632330.765715] ata1.00: failed command: READ FPDMA QUEUED
2021-07-27T10:07:09+02:00 ************* kernel: [632330.771597] ata1.00: cmd 60/80:40:e0:3a:23/00:00:bc:00:00/40 tag 8 ncq 65536 in
2021-07-27T10:07:09+02:00 ************* kernel: [632330.788864] ata1.00: status: { DRDY }
2021-07-27T10:07:09+02:00 ************* kernel: [632330.793045] ata1.00: failed command: READ FPDMA QUEUED
2021-07-27T10:07:09+02:00 ************* kernel: [632330.798882] ata1.00: cmd 60/20:48:20:8f:01/00:00:16:00:00/40 tag 9 ncq 16384 in
2021-07-27T10:07:09+02:00 ************* kernel: [632330.816149] ata1.00: status: { DRDY }
2021-07-27T10:07:09+02:00 ************* kernel: [632330.820340] ata1: hard resetting link
2021-07-27T10:07:15+02:00 ************* kernel: [632337.060277] ata1: link is slow to respond, please be patient (ready=0)
2021-07-27T10:07:19+02:00 ************* kernel: [632341.008379] ata1: softreset failed (device not ready)

PS: Jetzt wo ich die Werte StartStop und PowerOn im SMART seh, werde ich den Sleep wohl abchalten ... lohnt ja nicht wirklich. (Stromsparen und ab und an mal bissl weniger Wärme im System)

Benares · 28. Juli 2021

Auf den ersten Blick: Da hat sich wohl einfach Laufwerk 3 verabschiedet. Also austauschen.
Sind die Smart-Werte (Screenshot 4) von diesem Laufwerk?

himitsu · 28. Juli 2021

Jupp, die sind davon.
Die von den anderen beiden Platten sehen ähnlich aus, nur mit paar mehr Stunden.

Am PC getestet und kein Problem gefunden.
Und jetzt wo sie wieder im NAS steckt, wird sie als "nicht zugeordnet" angezeigt, ohne Fehlermeldung. (vor dem Entfernen zum Testen, waren nur 2 Platten sichtbar)

Damals, als ich bissl rumgespielt hatte, da wurde eine "einfach so rausgezogene Platte" als Fehlerhaft angezeigt. (glaube ich mich erinnern zu können)
und ich konnte dafür dann in "Reparatur" der defekten Platte eine Ersatzplatte auswählen.
Diesmal war diese Platte nicht sichtbar und ich hab im "Volume" bloß den Reparieren-Knopf.

Benares · 28. Juli 2021

Dann versuch's sie mal wieder zuzuordnen.
Ich bin da auch nicht so der Crack, aber es könnte vielleicht sein, dass es Probleme gibt, weil du 5400rpm (WD80EFZX) mit 7200rpm (WD80EFAX) in einem Raid vermischt hast. CMR scheinen zum Glück ja beide zu sein.

himitsu · 28. Juli 2021

Nja, ist halt nicht so einfach "ähnliche" Platten zu finden, wenn man irgendwann später das RAID erweitern will. (vorallem wenn man selten/fast nie Festplatten kauft)

Im Backup steckt eine Ironwolf (die würde ich nicht zu den WD stecken wollen)
und im Dauerbetrieb sind die mir die IW einfach zu laut. (in den tieferen Frequenzen)

himitsu · 28. Juli 2021

Wie gesagt, ich hab kein Vollbackup und ich weiß nicht was der jetzt beim Reparieren macht.
Drum wollte ich vorher bissl fragen ... im Notfall müsste ich mir halt eine neue Platte besorgen.

Beim Testen lief das mit dem reparieren super und selbst wenn es nicht klappte, dann waren die anderen verbliebenen Platten und das RAIS weiterhin funktionsfähig.
Ist jetzt halt nicht so, wie ich es damals geübt/ausprobiert hatte.

Ich habe hier eine Dockinstation via USB am NAS, welche sich einmal die Woche einschaltet, worauf hin das Ultimate Backup automatisch anspringt und anschließend das Laufwerk wieder auswirft (dann sinkt der Stromverbrauch und die Dockungstation wird wieder abgeschaltet)
Und da ist da eben nur eine Platte drin, für's Backup (damals wurde die "bezahlbare" Platte halt nur 8GB)

Aber falls jetzt das nicht so gut läuft, dann würde ich ohne komplettes Backup schon bissl Fluchen, auch wenn die lebenswichtigen Dinge sicher sind (kleines Backup) ... aber NOCH hab ich ja die Möglichkeit alles zu sicheren (mit mehr Backupplatz), bvor ich auch "Reparieren" klicke.
(hätte ich keine Wahl und alles wäre schon kaputt, dann wäre es nur ein "nja, ist halt so ... wenn weg dann weg ... Hauptsache das Wichtige ist noch da")

Morgen könnte ich mir hier bei Cyberport eine 16TB von Toshiba abholen (für "nur" 455€ oder Amazon 373€)
bzw. eine WD in einem USB-Gehäuse (16TB für 350€ oder 18TB für 570€) ... die könnte ich rausnehmen und dann hier in der Dockingstation für's Backup nutzen. (die Größere hätte dann noch bissl mehr Platz, um das Backup zu versionieren)

Benares · 28. Juli 2021

himitsu schrieb:
beim Testen lief das mit dem reparieren super und selbst wenn es nicht klappte, dann waren die anderen verbliebenen Platten und das RAIS weiterhin funktionsfähig.

Daran ändert sich ja nichts. Die Frage ist halt, wieso die Platte rausfliegt obwohl sie nicht defekt zu sein scheint. Ist das schon öfter passiert?

Aber es ist aber super, dass du inzwischen auch über ein Backup nachdenkst.

himitsu · 28. Juli 2021

Ja, der Grund für den Ausfall wüsste ich auch gern.

Abgesehn von den Stromausfällen (vielleicht doch irgendwann noch eine USV mit dran),
war bisher der einzige wirkliche Fehler das mit dem überhitzten SSD-Cache. (hier funktionierten die Schutzmechanismen und es fuhr sicher runter ... außer dem manuellen neustart, schauen was los war und dann nochmal neustarten, zur Beseitigung der Störung, war nichts los)

Ein Backup hab ich ja, nur eben nicht komplett von allem da drauf. (ein Teil lässt sich mit viel Arbeit wiederherstellen/neumachen/ersetzen und ein anderer Teil sind mehr "nostalgische" erinnerungen, die man "jetzt" erstmal nicht wirklich vermissen würde, und dann halt noch paar Aufnahmen aus der VU+ ... tja, und die Backups auf dem NAS, von den anderen Rechnern, die sind ja "jetzt" nicht lebensnotwendig)
Die Überlegung war jetzt nur, eventuell den eigentlich "eingeplanten" Verlust doch abzufangen, vor dem Reparaturversuch.

Blöd ist ja, dass Hardware grade nicht günstig ist, aber jetzt ist es nur die eine Platte.
Damals war es ja das ganze NAS zu bezahlen, dann bissl später noch das Backupsystem und auf der hohen Kannte lag damals auch noch bissl Weniger Kohle rum)
Zuerst also 2x 8TB = 8TB im RAID plus die eine BackupPlatte, welche damals also mit 8TB ausreichte (wobei man hier rollierend auch ab und an mal die BackupPlatte tauschen könnte und dann mehrere Backups hätte, auch wenn nicht alle top-aktuell) ... tja, und inzwischen sind hier halt 3x 8TB = 16 TB drin.

himitsu · 30. Juli 2021

Wieso eigentlich 7200?
Die müssten doch alle 5400rpm haben, sind gleich groß und besitzen die selbe Firmware. (die klingen auch gleich)
WD80EFAX-68LHPN0
WD80EFZX-68UW8N0

So, die alte Platte nochmal getestet und der große S.M.A.R.T-Test sagt alles sei OK.
Außerdem ist grade die neue Backup-Platte da. Werde die auch nochmal testen lassen, dann das neue vollständige Backup machen
und dann mal sehn, was beim Klick auf "Reparieren" nun passiert.

Schade nur, dass ich immernoch nicht weiß, warum das nun passiert war.

Benares · 30. Juli 2021

Such mal bei https://geizhals.de/ nach "WD80EFAX" bzw. "WD80EFZX", da siehst du auch eine Tabelle mit technischen Daten.

himitsu · 30. Juli 2021

Hmmmm, bei Geizhals steht für die AX was von >> 7200rpm ("5400 RPM Class") << und bei der ZX nur "5400rpm".
Google, Idealo, Amazon, Mindfactory sagen 5400. (auch da, wo ich es damals gekauft hatte, steht 5400)

Vielleicht könnte die mehr, aber macht dennoch nur 5400?

[edit] Bei WD steht auch etwas von 5400.
https://shop.westerndigital.com/de-...rnal-drives/wd-red-plus-sata-3-5-hdd#WD80EFAX

Benares · 30. Juli 2021

Lies mal hier.

himitsu · 30. Juli 2021

Na toll, da hatte ich damals extra versucht eine möglichst ähnliche Platte zu bekommen, um das RAID zu erweitern.
Das andere Modell war nicht lieferbar. Der Cache war etwas größer, aber sonst klang es ja gleich.
Und auch auf der Seite der Herstellers steht immernoch 5400. https://shop.westerndigital.com/de-...rnal-drives/wd-red-plus-sata-3-5-hdd#WD80EFAX

Benares · 30. Juli 2021

WD hat sich mit ihren Produktbezeichnungen in den letzten Jahren wirklich nicht mit Ruhm bekleckert - angefangen mit der ganzen CMR/SMR-Problematik. Deren Platten sind gut, keine Frage, aber wie soll ein Kunde da noch durchblicken.

Fusion · 31. Juli 2021

@himitsu du musst dir das PDF Datenblatt auf der Seite ansehen. Dort stehen die 7200 mit Erklärung drin.

himitsu · 31. Juli 2021

Änderungen der Spezifikationen vorbehalten.
...
9) Die tatsächliche Drehzahl des Spindelmotors beträgt 7.200 U/min bei diesem Modell, doch das ID-Gerät kann 5.400 melden, um die vorherige Leistungsklassenbezeichnung widerzuspiegeln.

Nja, eine sinnvolle Erklärung klingt anders.

Ach ja, auf Amazon behaupten mehrere Käufer, die Platten mit AX hätte SMR statt CMR.
Aber das ja stimmt zum Glück nicht.

Nagelneues Backup läuft und läuft ... der erste Durchlauf dauert immer ewig

. (es sind aber auch sehr sehr viele kleine Dateien dabei)

synfor · 31. Juli 2021

himitsu schrieb:
Ach ja, auf Amazon behaupten mehrere Käufer, die Platten mit AX hätte SMR statt CMR.
Aber das ja stimmt zum Glück nicht.

Für die WD80EFAX stimmt das nicht, für WDx0EFAX mit x=2,3,4 o. 6 aber schon.

himitsu · 31. Juli 2021

Dann ist das mit den Kennungen echt ein klein winziges bissl verwirrend.

Komisch, dass es geade bei den kleinen Größen ist. Bei SMR werden doch die Spuren enger zusammen geschrieben, leicht überlappen, um mehr Daten auf selbem Raum zu bekommen ... da hätte ich erwartet, dass es eher bei den großen Größen vorkommt.

Benares · 31. Juli 2021

Bei SMR ist eher das Problem, dass manchmal die ganze Spur reorganisiert/neu geschrieben werden muss. Das kann etwas dauern.
In Verbindung mit CMR-Platten im gleichen Raid, kann es passieren, dass das OS dies als Timeout wertet und die SMR-Platte rausschmeißt.
Ähnliches könnte ich mir vorstellen, wenn Platten mit unterschiedlichen Umdrehungen in einem Raid gemischt werden. Aber dann müssten eher die 5400er rausgekickt werden. Aber ich weiß es nicht genau. Ich weiß nur, dass man halt nicht mischen sollte.

himitsu · 02. Aug. 2021

Backup ist fertig und RAID-Reparatur läuft nun.

Boar eh, das Backup wurde doch tatsächlich durch den SSD-Cache gejagt. (sinnlos knapp 11TB geschrieben)

Zustand von Speicherpool hat sich verschlechtert

Benutzer

Anhänge

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Benutzer

Kaffeautomat