Re: Idee su come riparare il raid

2008-06-07 Per discussione Lucio Crusca
Pol Hallen wrote:

> Me l'ha messo in faulty, ma non me lo fa piu' partire
> 
> mdadm --run /dev/md0
> mdadm: failed to run array /dev/md0: Input/output error
> 
> Se riattacco il disco (sdh) allora riparte..
Si vede che non capisco... ma su 7 dischi quanti ne hai dedicati alla
ridondanza?


-- 
Virtual Bit di Lucio Crusca
via Isonzo, 5 - 10069 Villar Perosa (TO) - Italy
http://www.virtual-bit.com


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]



Re: Idee su come riparare il raid

2008-06-07 Per discussione Pol Hallen
mdadm -A /dev/md0 --scan
mdadm: /dev/md0 assembled from 6 drives and 2 spares - not enough to start the 
array.

Come sospettavo (evvai con la sfiga!) non assembla perche' sopravvive con al 
massimo 2 dischi..

Ora, c'e' da sperare che, come dici tu non sia un problema fisico del disco ma 
un problema di qualche altro genere (driver, etc.) anche se.. quel disco e' 
attacco allo stesso controller di altri 3 dischi (che funzionano e bene.. 
sembrerebbe...)

Pol


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]



Re: Idee su come riparare il raid

2008-06-07 Per discussione Pol Hallen
> Comunque il modo più semplice è impostare da software sdh come failed. Se
> te lo lascia fare significa che sa come sopravvivere senza di lui e a quel
> punto puoi toglierlo fisicamente.
> mdadm /dev/md0 -f /dev/sdh
Me l'ha messo in faulty, ma non me lo fa piu' partire

mdadm --run /dev/md0
mdadm: failed to run array /dev/md0: Input/output error

Se riattacco il disco (sdh) allora riparte..
 
Pol


--
Per REVOCARE l'iscrizione alla lista, inviare un email a
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]



Re: Idee su come riparare il raid

2008-06-07 Per discussione Lucio Crusca
Io ho scritto
>> Se togli un disco su sette. 
La frase ovviamente non doveva finire lì... mi sono dimenticato un pezzo. Se
togli un disco su sette il sistema non dovrebbe risentirne. I due spare non
stanno comunque contribuendo a mantenere i dati fino a quando il rebuild
non sarà finito, ma nella situazione attuale mi sembra di capire che non
finirà mai. 

> Se come dici tu tolgo un disco su 7, quando il sistema e' composto da 9
> dischi (2 di spare) e il raid non e' attivo perche' e' in rebuilding non
> credi che sputtano il tutto?
Secondo me no, i due spare non li devi contare fin quando sono spare.

> Cioe': come sopravvive il sistema composto da 9 dischi (2 sono spare in
> rebuilding) togliendo il terzo?
Penso che togliendo sdh tu stia in realtà togliendo il primo, non il terzo.
Il sistema vede che sdh manca e inizia il rebuild su uno spare (o forse su
entrambi) prendendo i dati ridondanti da qualche altro disco che non sia
sdh, visto che non c'è più.

Comunque il modo più semplice è impostare da software sdh come failed. Se te
lo lascia fare significa che sa come sopravvivere senza di lui e a quel
punto puoi toglierlo fisicamente.

mdadm /dev/md0 -f /dev/sdh

-- 
Virtual Bit di Lucio Crusca
via Isonzo, 5 - 10069 Villar Perosa (TO) - Italy
http://www.virtual-bit.com


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]



Re: Idee su come riparare il raid

2008-06-07 Per discussione Pol Hallen
> Speriamo tu abbia una CPU potente... :)
Quad ;-)

> Se togli un disco su sette. Gli altri due sono hot spare, quindi al momento
> non contribuiscono a mantenere i dati fino a quando il rebuild non è
> completo. Secondo me puoi togliere sdh, aggiungere un nuovo hot spare al
> suo posto ed attendere il rebuild. Anche qui parlo per ricordi annebbiati,
> quindi molta diffidenza ed un bel backup preventivo prima di agire...
Il backup ce l'ho, ci mi vorrebbe pero' un mese (o forse +) di lavoro per 
recuperarlo :-)

Se come dici tu tolgo un disco su 7, quando il sistema e' composto da 9 dischi 
(2 di spare) e il raid non e' attivo perche' e' in rebuilding non credi che 
sputtano il tutto? 
Cioe': come sopravvive il sistema composto da 9 dischi (2 sono spare in 
rebuilding) togliendo il terzo? 

Grazie :-)
Pol


--
Per REVOCARE l'iscrizione alla lista, inviare un email a
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]



Re: Idee su come riparare il raid

2008-06-07 Per discussione Lucio Crusca
Pol Hallen wrote:

> Ciao a tutti :-)
> Ho un raid 6 software su una debian stable.
Speriamo tu abbia una CPU potente... :)

> Mi sono accorto poco tempo fa di:
>  Active Devices : 7
> Working Devices : 9
>  Failed Devices : 0
>   Spare Devices : 2
Questo ci dice che bastano 6 dischi in vita (forse anche solo 5 essendo un
raid6) per non perdere i dati. 

> Number   Major   Minor   RaidDevice State
>0   8   640  active sync   /dev/sde
>1   8  1121  active sync   /dev/sdh
>2   8   322  active sync   /dev/sdc
>3   8   163  active sync   /dev/sdb
>4   8   804  active sync   /dev/sdf
>5   8  1285  active sync   /dev/sdi
>9   806  spare rebuilding   /dev/sda
>7   8   967  active sync   /dev/sdg
>   10   8   488  spare rebuilding   /dev/sdd
>  
> dopo un po' si blocca tutto perche' /dev/sdh ha problemi, dmesg dice:
> 
> ata9.00: exception Emask 0x10 SAct 0x0 SErr 0x9 action 0x2 frozen
> ata9.00: cmd c8/00:e0:20:1a:3d/00:00:00:00:00/e1 tag 0 cdb 0x0 data 114688
> in
>  res ff/ff:ff:ff:ff:ff/00:00:00:00:00/ff Emask 0x12 (ATA bus
>  error)
> ata9: hard resetting port
> ata9: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata9.00: configured for UDMA/100
> ata9: EH complete
> sd 8:0:0:0: [sdh] 976773168 512-byte hardware sectors (500108 MB)
> sd 8:0:0:0: [sdh] Write Protect is off
> sd 8:0:0:0: [sdh] Mode Sense: 00 3a 00 00
> sd 8:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't
> support DPO or FUA
> ata9.00: exception Emask 0x10 SAct 0x0 SErr 0x9 action 0x2 frozen
> 
> In sostanza ho: /dev/sdh che funziona male (quindi va sostituito) 
Boh, io non riesco ad interpretare quei logs, ma ad intuito mi sembra più un
problema del driver o del controller che un problema del disco. Prendi
comunque con molta diffidenza le mie impressioni.

> ma sia 
> sda e sdd sono in spare rebuilding
questo perché un disco funziona a singhiozzo, quindi il sistema prima si
pianta, poi quando riprende a funzionare inizia il rebuild dell'array. 
> 
> Se sostituisco sdh, il raid non dovrebbe piu' partire, no? 
Se togli un disco su sette. Gli altri due sono hot spare, quindi al momento
non contribuiscono a mantenere i dati fino a quando il rebuild non è
completo. Secondo me puoi togliere sdh, aggiungere un nuovo hot spare al
suo posto ed attendere il rebuild. Anche qui parlo per ricordi annebbiati,
quindi molta diffidenza ed un bel backup preventivo prima di agire...

Lucio.
-- 
Virtual Bit di Lucio Crusca
via Isonzo, 5 - 10069 Villar Perosa (TO) - Italy
http://www.virtual-bit.com


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]



Idee su come riparare il raid

2008-06-07 Per discussione Pol Hallen
Ciao a tutti :-)
Ho un raid 6 software su una debian stable.
Mi sono accorto poco tempo fa di:

mdadm --detail /dev/md0
/dev/md0:
Version : 00.90.03
  Creation Time : Wed Jan 30 17:42:24 2008
 Raid Level : raid6
 Array Size : 3418705472 (3260.33 GiB 3500.75 GB)
Device Size : 488386496 (465.76 GiB 500.11 GB)
   Raid Devices : 9
  Total Devices : 9
Preferred Minor : 0
Persistence : Superblock is persistent

Update Time : Sat Jun  7 12:45:00 2008
  State : clean, degraded, recovering
 Active Devices : 7
Working Devices : 9
 Failed Devices : 0
  Spare Devices : 2

 Chunk Size : 64K

 Rebuild Status : 3% complete

   UUID : 9ce7c8e3:45fc8877:0f8c9c83:9b549afa
 Events : 0.386254

Number   Major   Minor   RaidDevice State
   0   8   640  active sync   /dev/sde
   1   8  1121  active sync   /dev/sdh
   2   8   322  active sync   /dev/sdc
   3   8   163  active sync   /dev/sdb
   4   8   804  active sync   /dev/sdf
   5   8  1285  active sync   /dev/sdi
   9   806  spare rebuilding   /dev/sda
   7   8   967  active sync   /dev/sdg
  10   8   488  spare rebuilding   /dev/sdd
 
dopo un po' si blocca tutto perche' /dev/sdh ha problemi, dmesg dice:

ata9.00: exception Emask 0x10 SAct 0x0 SErr 0x9 action 0x2 frozen
ata9.00: cmd c8/00:e0:20:1a:3d/00:00:00:00:00/e1 tag 0 cdb 0x0 data 114688 in
 res ff/ff:ff:ff:ff:ff/00:00:00:00:00/ff Emask 0x12 (ATA bus error)
ata9: hard resetting port
ata9: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata9.00: configured for UDMA/100
ata9: EH complete
sd 8:0:0:0: [sdh] 976773168 512-byte hardware sectors (500108 MB)
sd 8:0:0:0: [sdh] Write Protect is off
sd 8:0:0:0: [sdh] Mode Sense: 00 3a 00 00
sd 8:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't support 
DPO or FUA
ata9.00: exception Emask 0x10 SAct 0x0 SErr 0x9 action 0x2 frozen

In sostanza ho: /dev/sdh che funziona male (quindi va sostituito) ma sia sda e 
sdd sono in spare rebuilding

Se sostituisco sdh, il raid non dovrebbe piu' partire, no? perche' non 
riuscirebbe ad utilizzare i dischi di spare.

Quindi come potrei risolvere?

Grazie!
Pol


-- 
Per REVOCARE l'iscrizione alla lista, inviare un email a 
[EMAIL PROTECTED] con oggetto "unsubscribe". Per
problemi inviare un email in INGLESE a [EMAIL PROTECTED]

To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of "unsubscribe". Trouble? Contact [EMAIL PROTECTED]