Re: [rlug] SMART Raw_Read_Error_Rate si emask 0x4 timeout

Andrei Picus Sat, 15 Oct 2011 09:01:23 -0700

2011/10/15 alin stoian <[email protected]>

>
>
> (imi cer scuze pentru dublura, dar gresisem
> theard-ul)
>
> Salutare!
>
> A mai intalnit cineva urmatoarele
> erori?
> (configuratia: Debian Lenny x64 + Xen + mdadm raid1 sda + sdb -
> Seagate ST31500341AS)
>
> Dupa ce mi-au aparut ieri urmatoarele mesaje in
> dom0:
> Oct 14 04:14:08 kernel: ata2.00: exception Emask 0x0 SAct
> 0x7fffffff SErr 0x0 action 0x6 frozen
> Oct 14 04:14:08 kernel: ata2.00:
> cmd 60/00:00:72:95:45/01:00:69:00:00/40 tag 0 ncq 131072 in
> Oct 14
> 04:14:08 kernel: res 40/00:28:f7:e6:17/00:00:00:00:00/40 Emask 0x4
> (timeout)
> Oct 14 04:14:08 kernel: ata2.00: status: { DRDY }
> Oct 14
> 04:14:08 kernel: ata2.00: cmd 60/00:08:b2:ac:99/01:00:67:00:00/40 tag 1
> ncq 131072 in
> Oct 14 04:14:08 kernel: res
> 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
> Oct 14 04:14:08
> kernel: ata2.00: status: { DRDY }
> ...
> Oct 14 04:14:08 kernel: ata2.00:
> cmd 60/58:10:0a:ac:99/00:00:67:00:00/40 tag 2 ncq 45056 in
> Oct 14
> 04:14:08 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4
> (timeout)
> Oct 14 04:14:08 kernel: ata2.00: status: { DRDY }
> ... ^
> x15
>
> Acum imi apar odata la cateva ore urmatoarele notificari:
> Oct 15
> 06:30:40 smartd[3663]: Device: /dev/sda, SMART Prefailure Attribute: 1
> Raw_Read_Error_Rate changed from 105 to 113
> Oct 15 06:30:41
> smartd[3663]: Device: /dev/sdb, SMART Prefailure Attribute: 1
> Raw_Read_Error_Rate changed from 116 to 117
>
> Raw_Read_Error_Rate-ul a
> fluctuat toata ziua intre 100 si 120. Vreo idee?
>
> Eu din cate am citit
> pe forumuri, pare a fi o problema de incompatibilitate intre chipsetul
> placii de baza si harddisk-uri (dar ar fi trebuit sa mai am erorile
> astea pana cum prin loguri... ceea ce nu s-a intamplat). Se recomanda
> schimbarea firmware-ului la disk sau a placii de baza ceea ce e foarte
> complicat. Sistemul are un uptime de +300 de zile, iar mesajele de mai
> sus au inceput de ieri. Sistemul este destul de solicitat in general.
> (VPS-urile uneori ating load average-uri de 10-15 sau chiar mai
> mari)
> PS: dezactivarea NCQ-ului ese exclusa...
>
>
> _______________________________________________
> RLUG mailing list
> [email protected]
> http://lists.lug.ro/mailman/listinfo/rlug
>


Este posibil sa-ti crape in curand HDD-ul. Fara sa fiu rautacios, dar e un
Seagate, deci va crapa. Mai ales ca este un 7200.11. Ai spus ca are un
uptime de 300+ zile si este foarte solicitat, iar Seagate-urile crapa de la
folosire intensa si indelungata. Am avut si eu un 7200.12 care avea un
uptime tot ~300 si a murit din cauza unui nr foarte mare de sectoare
realocate.
Poti instala smartmontools si sa rulezi un smartctl -H /dev/sdX si sa vezi
ce-ti spune si el. Un -A iti va arata toti parametrii SMART si valorile lor.
Vezi ca valorile sunt normalizate si descrescatoare (cu mici exceptii). O
valoare de 100 este mai rea decat una de 200.
Eu recomand sa incepi sa-ti faci un backup si sa planifici o schimbare a
HDD-ului. Poti folosi gdd pentru a face backup-ul, avand avantajul ca daca
intalneste o eroare, va reincerca un numar de ori pana trece mai departe. dd
se va bloca pur si simplu.

-- 
Andrei Picus
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Re: [rlug] SMART Raw_Read_Error_Rate si emask 0x4 timeout

Raspunde prin e-mail lui