Hallo Patrick,
vieleicht zuerst: Ich kenne die grundsätzlich Funktionalität von Raids
aber nicht die eines EMC Clarion AX100.
Nachdem was ich hier gerade gelesen habe denke ich das Du Dir hier
Gedanken über die Sicherungsstrategie (bzw. Rücksicherung) machen musst.
Nach dem Fehlerbild kann Dir keiner die Konsistenz der Daten auf dem
Raid garantieren.
BTW. Hie wird wohl auch ein Gespräch mit EMC fällig. Das hier zwei
Platten nahezu gleichzeitig nach einem Update der Firmware ausfallen
hört sich schon mächtig komisch an.
Aber mal zu Deiner Mail im Einzelnen:
Patrick Schulz wrote:
Hi, wir haben hier gestern ein Firmware Update auf einer EMC Clarion
AX100 gemacht. Nach deren Reboot schien alles ganz sauber zu laufen bis
sich 5 Minuten später die erste Festplatte aus dem RAID 5 verabschiedete.
Vor dem Update näturlich ALLE Daten extern gesichert, ODER?
Das Hotspare sprang ein und begann die Funktion der defekten Platte zu
übernehmen und begann die replizierung.
Zu diesem Zeitpunkt sollte Eigentlich die defekte Platte im Raid keine
Rolle mehr spielen und aus der Storage Unit entfernt werden!
Hierzu sollte es aber detailierte Anweisungen vom Hersteller geben!!
Ca. eine halbe Stunde später verabschiedete sich eine zweite Platte aus
dem Array.
Schon komisch. Mal bei EMC anfragen was die dazu sagen.
Gibts da eigentlich keine Wochenend-Hotline?
In der Storage Unit befinden sich 6 Platten - eine davon ist ein Hotspare.
Über die ersten drei ist ein RAID5 gespannt, das das OS der AX100 trägt.
Größe ca. 1-2GB (ich nenne es mal OS-Array).
Über den Rest dieser 3 Platten und zusammen mit 2 weiteren spannt sich
ein weiteres RAID5 (Daten-Array). Die Hardware scheint sowas zu
unterstützen.
Nicht ales was die Hardware unterstützt sollte man auch tun. (Ich weis,
hinterher sind alle schlauer, aber sowas sollte man eigentlich vorher im
Detail klären)
Bei einem Raid5 werden Bereiche zweier Festplatten mit XOR verknüpft und
auf eine dritten abgespeichert. Hierdurch kann beim Ausfall EINER Platte
der Inhalt dieser Platte jeweils aus dem Inhalt der zwei anderen wieder
rekonstruiert werden. Der Ausfall von ZWEI Platten ist jedoch ein
technischer KO. Das einzige was sich bei einer Verteilung über fünf HDDs
ändert ist das mehr Daten mit ins Grab gerissen werden, aber das hast Du
wahrscheinlich schon realisiert. :-(
(BTW, wieviele Platten passen eigentlich in in die Storage Unit?
Eine Aufteilung über sechs Platten plus ein oder zwei Hotstandby macht
hier mehr Sinn. )
So, die erste Platte die ausfiel gehört zu dem Daten-Array und war eine
der zwei zusätzlichen.
Lässt sich anhand der Konfiguration verifizieren.
Die zweite Platte gehörte zum OS-Array.
Dass der zweite Fehler _nur_ zu dem OS-Array gehörte läßt sich aus
folgendem ableiten:
Nach mehrmaligem herausziehen und wieder hineinstecken dieser zweiten
Platte begannen nur die ersten drei Platten sich zu synchronisieren. Das
OS-Array schien wieder zu laufen. Das Daten-Array setzte die
Sychronisation mit dem Hotspare fort.
Das sehe ich aber ganz anderst. Nach meinem Dafürhalten beginnt genau
hier das ganze Drama.
Eigentlich muss es heissen "Nach mehrmaligen ... wird die zweite Platte
wieder als vermeintlich fehlerfrei wieder in das Raid integriert".
Der genaue Zustand der Platte ist jedoch NICHT bekannt. Der Bereich der
OS-Partition wird aus den Bereichen der Platte 1 und 3 wieder
hergestellt, was soweit erstmal funktionieren kann.
Da jedoch zu diesem Zeitpunkt die Wiederherstellung des Daten-Array noch
nicht abgeschlossen ist, wird diese jetzt mit einer fehlenden Platte
und einer, in ihrem Zustand fragwürdigen, Platte weiter syncronisiert.
Reines Glücksspiel!!!
Das Daten-Array war auch während dieser synchronisation online und
konnte gemountet werden.
Das ist auch eine Grundfunktion eines Raids, sagt aber in diesem Falle
eigentlich nichts über die Konsistenz der Daten!!!
Nach zwei weiteren Tests dieser Art (Kann der Server das Volume wieder
mounten?!?) fiel während des reiserfsck beim Boot wieder die Platte zwei
aus....
War eigentlich vorherzusehen, oder?
Auch hier half Platte raus und rein.
Wie bereits gesagt, diese 'Hilfe' ist keine!
Jetzt haben wir über Nacht alles schön brav weiter laufen lassen. Die
anfänglich defekte erste Platte wurde (leider) wieder als fehlerfrei
erkannt und bekam seine Daten vom Hotspare zurück.
Auch hier wie bereits gesagt: defekte Hardware/Platten haben in einem
Raid nichts zu suchen!!
Jetzt sagt mir allerdings mein Server, dass das reiserfs auf dem
Datenarray BadBlocks habe. Ich komme nicht mehr ran.
850GB...
Entschuldige meine harten Worte, aber wen soll das verwundern?
Bitte, helft mir.
Das Dateisystem liegt also auf der StorageUnit angebunden über
FibreChannel -> LVM -> ReiserFS.
Patrick, hier kann und sollte Dir eigentlich nur noch der Support des
Herstellers oder auf gleichem Level geschultes Personal, welches dieses
System (und die Firmware) aus dem F-F kennt, helfen. Weiteres
'Rumbastel' macht alles nur noch schlimmer.
Sorry für die 'harten' Fakten, aber vieleicht kann ja noch jemand aus
diesem Drama lernen bevor er die gleichen Fehler macht.
Deshalb wäre es auch interesant den Ausgang zu erfahren.
Da fällt mir noch ein: eigentlich sollte man im Produktiven Umfeld bei
der Anschaffung eines Raids mindestens die Anzahl der aktiv verwendeten
Platten nochmals einlagern. (d.h. NICHT als HotStandBy sondern orginal
eingepackt im Regal)
Warum?
Auch wenn in Raids, in der Regel, Platten aus unterschiedlicher
Produktionsreihen (Datum) verwendet werden um eben das Risiko eines
gleichzeitigen Ausfall mehrerer Platten, zumindest durch
unterschiedliche Fertigungsreihen, zu minimieren, kann man dies jedoch
nicht ausschliessen.
Baugleiche Platten können unter Umständen nach mehreren Jahren nicht
mehr bezogen werden und ein Plattenmix ist nicht zu empfehlen.
Die zweite Platte fällt immer dann aus wenn die erste gerade
'verbraucht' wurde und keine weitere zur Hand ist. (Murphy oder so)
Gruß,
Klaus
--
----------------------------------------------------------------------------
PUG - Penguin User Group Wiesbaden - http://www.pug.org