Re: Festplatte unzuverlässig,

Florian Knodt Sat, 03 Apr 2021 09:23:11 -0700

Moin,

dann beschränke ich mal auf das Wichtigste. Nich Alle Felder sind bei
allen Platten verfügbar, zudem ist das hier spezifisch für Festplatten.
Bei SSDs wäre z.B. die Abnutzung noch sehr wichtig.


> === START OF INFORMATION SECTION ===

In dem Abschnitt stehen Hersteller, Modell, Größe, Seriennummer, etc.
Sollte man wenn möglich immer nochmal gegenprüfen, ob man die richtige
Platte erwischt hat.

>   1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail
> Always       -       0

Für alle folgenden Zeilen gilt: In der ersten Spalte steht der Name
(Raw_Read_Error_Rate), ganz am Ende die menschenlesbare Zahl (0).

Hier geht es um die Anzahl der Lesefehler. Eine hohe Anzahl kann darauf
hindeuten, dass es Probleme mit den Leseköpfen gibt. Alles >1 heißt,
dass irgendwas mit der Hardware nicht stimmt(e). Kann eine einmale Sache
wie z.B. ein Sturz gewesen sein, der mit Glück keine weiteren Schäden
anrichtet. Dauerhaftere Defekte oder Altersschwäche merkt man wenn die
Zahl über die Zeit steigt. Hier gab es bisher keine Fehler, also Alles OK

>   4 Start_Stop_Count        0x0032   094   094   000    Old_age
> Always       -       6654
>  12 Power_Cycle_Count       0x0032   096   096   000    Old_age
> Always       -       4180

Die Platte wurde 6654x aus und wieder eingeschaltet. 4180x war es durch
Strom aus/an. Mehr kann z.B. durch Standbyeinstellungen kommen. Häufiges
Einschalten kann zu Abnutzung führen. Ist aber erst mal nur rein
informativ (Old_age).

>   5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail
> Always       -       0
> 196 Reallocated_Event_Count 0x0032   200   200   000    Old_age
> Always       -       0

Nu wird es interessant. Ein Reallocated Secor heißt, dass der Controller
der Festplatte festgestellt hat, dass ein Sektor der Festplatte nicht
mehr funktioniert. Auch hier kann es durch einmalige Ereignisse oder
Alter auftreten. In dem Fall kann er auf einen Reservesektor
zurückgreifen und zukünftig den nutzen. Wenn so etwas auftritt ist das
ein sehr guter Zeitpunkt seine Backups schon mal zu suchen. Hier: 0
Sektoren betroffen und 0 Ereignisse bekannt, alles OK

> 198 Offline_Uncorrectable   0x0030   100   253   000    Old_age
> Offline      -       0

Wenn ein Sektor sich nicht retten lässt geht er offline. Wenn das
Betriebssystem versucht dort zu lesen oder schreiben gibt es einen
Fehler. Nix betroffen, alles Gut.

> 197 Current_Pending_Sector  0x0032   200   200   000    Old_age
> Always       -       0

Das ist die Corstufe zu Reallocated: Das sind Sektoren, welche zwar noch
funktionieren, aber dem Controller auffällig geworden sind. Wenn wenig
los ist wird der Controller diese üblicherweise nochmal genauer prüfen
und die Daten ggf. in Sicherheit bringen.

>   9 Power_On_Hours          0x0032   073   073   000    Old_age
> Always       -       20327

20327 Stunden lief die Platte, also knapp 2.5 Jahre. Ist rein
informativ. Bei mir gehen Platten üblicherweise in <2 Monaten oder >5
Jahren kaputt, würde ich also jetzt auch nicht als auffällig einstufen.

> 191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age
> Always       -       1632878

Ist eigentlich die Anzahl der Fehler, die durch Stürze verursacht
wurden. Der Wert gibt so hoch aber keinen Sinn - würde ich als "zeichnet
die Platte nicht Sinnvoll auf" einstufen.

> 194 Temperature_Celsius     0x0022   121   076   000    Old_age
> Always       -       26

Temperatur halt. 26°C ist OK. Grobe Hausnummer: >40°C wäre bedenklich.

> 199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age
> Always       -       0

Das wären Fehler in der Übertragung. Die Daten wurden Fehlerfrei
gelesen, gingen aber auf dem Weg zwischen Platte und Rechner kaputt.
Üblicherweise kaputte Kabel oder ähnliches.

> No Errors Logged

...ist dann nochmal die Bestätigung: Der Hardware ist kein Fehler bekannt.


Also Zusammenfassung: Auf Hardwareseite sieht da eigentlich alles sauber
aus. Es wurde kein Fehler aufgezeichnet. Ich würde da eher vermuten,
dass die beobachteten Fehler im Dateisystem durch andere Probleme
verursacht wurden (Kernel-Abstürze? Stromausfälle? Softwaredefekte?).
Man könnte wenn man sicher gehen will nochmal einen Selbsttest machen
(Start: smartctl -t long -C /dev/sda # Status/Ergebnis: smartctl -l
selftest /dev/sda # Dauert bei der Platte ca. 157 Minuten), aber ehrlich
gesagt würde ich da so ganz oder Anzeichen eines Fehlers auch nix erwarten.

Florian

Re: Festplatte unzuverlässig,

Antwort per Email an