Re: [PUG] HILFE!!!! Unsere Datein scheinen verloren zu sein

Klaus Klein Sun, 19 Nov 2006 15:07:10 -0800

Hallo Patrick,

vieleicht zuerst: Ich kenne die grundsätzlich Funktionalität von Raidsaber nicht die eines EMC Clarion AX100.

Nachdem was ich hier gerade gelesen habe denke ich das Du Dir hierGedanken über die Sicherungsstrategie (bzw. Rücksicherung) machen musst.Nach dem Fehlerbild kann Dir keiner die Konsistenz der Daten auf demRaid garantieren.

BTW. Hie wird wohl auch ein Gespräch mit EMC fällig. Das hier zweiPlatten nahezu gleichzeitig nach einem Update der Firmware ausfallenhört sich schon mächtig komisch an.


Aber mal zu Deiner Mail im Einzelnen:

Patrick Schulz wrote:

Hi, wir haben hier gestern ein Firmware Update auf einer EMC Clarion
AX100 gemacht. Nach deren Reboot schien alles ganz sauber zu laufen bis
sich 5 Minuten später die erste Festplatte aus dem RAID 5 verabschiedete.


Vor dem Update näturlich ALLE Daten extern gesichert, ODER?

Das Hotspare sprang ein und begann die Funktion der defekten Platte zu
übernehmen und begann die replizierung.

Zu diesem Zeitpunkt sollte Eigentlich die defekte Platte im Raid keineRolle mehr spielen und aus der Storage Unit entfernt werden!

Hierzu sollte es aber detailierte Anweisungen vom Hersteller geben!!

Ca. eine halbe Stunde später verabschiedete sich eine zweite Platte aus
dem Array.


Schon komisch. Mal bei EMC anfragen was die dazu sagen.
Gibts da eigentlich keine Wochenend-Hotline?

In der Storage Unit befinden sich 6 Platten - eine davon ist ein Hotspare.
Über die ersten drei ist ein RAID5 gespannt, das das OS der AX100 trägt.
Größe ca. 1-2GB (ich nenne es mal OS-Array).
Über den Rest dieser 3 Platten und zusammen mit 2 weiteren spannt sich
ein weiteres RAID5 (Daten-Array). Die Hardware scheint sowas zu
unterstützen.

Nicht ales was die Hardware unterstützt sollte man auch tun. (Ich weis,hinterher sind alle schlauer, aber sowas sollte man eigentlich vorher imDetail klären)

Bei einem Raid5 werden Bereiche zweier Festplatten mit XOR verknüpft undauf eine dritten abgespeichert. Hierdurch kann beim Ausfall EINER Platteder Inhalt dieser Platte jeweils aus dem Inhalt der zwei anderen wiederrekonstruiert werden. Der Ausfall von ZWEI Platten ist jedoch eintechnischer KO. Das einzige was sich bei einer Verteilung über fünf HDDsändert ist das mehr Daten mit ins Grab gerissen werden, aber das hast Duwahrscheinlich schon realisiert. :-(


(BTW, wieviele Platten passen eigentlich in in die Storage Unit?

Eine Aufteilung über sechs Platten plus ein oder zwei Hotstandby machthier mehr Sinn. )

So, die erste Platte die ausfiel gehört zu dem Daten-Array und war eine
der zwei zusätzlichen.


Lässt sich anhand der Konfiguration verifizieren.

Die zweite Platte gehörte zum OS-Array.
Dass der zweite Fehler _nur_ zu dem  OS-Array gehörte läßt sich aus
folgendem ableiten:
Nach mehrmaligem herausziehen und wieder hineinstecken dieser zweiten
Platte begannen nur die ersten drei Platten sich zu synchronisieren. Das
OS-Array schien wieder zu laufen. Das Daten-Array setzte die
Sychronisation mit dem Hotspare fort.

Das sehe ich aber ganz anderst. Nach meinem Dafürhalten beginnt genauhier das ganze Drama.

Eigentlich muss es heissen "Nach mehrmaligen ... wird die zweite Plattewieder als vermeintlich fehlerfrei wieder in das Raid integriert".

Der genaue Zustand der Platte ist jedoch NICHT bekannt. Der Bereich derOS-Partition wird aus den Bereichen der Platte 1 und 3 wiederhergestellt, was soweit erstmal funktionieren kann.Da jedoch zu diesem Zeitpunkt die Wiederherstellung des Daten-Array nochnicht abgeschlossen ist, wird diese jetzt mit einer fehlenden Platteund einer, in ihrem Zustand fragwürdigen, Platte weiter syncronisiert.


Reines Glücksspiel!!!

Das Daten-Array war auch während dieser synchronisation online und
konnte gemountet werden.

Das ist auch eine Grundfunktion eines Raids, sagt aber in diesem Falleeigentlich nichts über die Konsistenz der Daten!!!

Nach zwei weiteren Tests dieser Art (Kann der Server das Volume wieder
mounten?!?) fiel während des reiserfsck beim Boot wieder die Platte zwei
aus....


War eigentlich vorherzusehen, oder?

Auch hier half Platte raus und rein.


Wie bereits gesagt, diese 'Hilfe' ist keine!

Jetzt haben wir über Nacht alles schön brav weiter laufen lassen. Die
anfänglich defekte erste Platte wurde (leider) wieder als fehlerfrei
erkannt und bekam seine Daten vom Hotspare zurück.

Auch hier wie bereits gesagt: defekte Hardware/Platten haben in einemRaid nichts zu suchen!!

Jetzt sagt mir allerdings mein Server, dass das reiserfs auf dem
Datenarray BadBlocks habe. Ich komme nicht mehr ran.
850GB...


Entschuldige meine harten Worte, aber wen soll das verwundern?

Bitte, helft mir.
Das Dateisystem liegt also auf der StorageUnit angebunden über
FibreChannel -> LVM -> ReiserFS.

Patrick, hier kann und sollte Dir eigentlich nur noch der Support desHerstellers oder auf gleichem Level geschultes Personal, welches diesesSystem (und die Firmware) aus dem F-F kennt, helfen. Weiteres'Rumbastel' macht alles nur noch schlimmer.

Sorry für die 'harten' Fakten, aber vieleicht kann ja noch jemand ausdiesem Drama lernen bevor er die gleichen Fehler macht.

Deshalb wäre es auch interesant den Ausgang zu erfahren.

Da fällt mir noch ein: eigentlich sollte man im Produktiven Umfeld beider Anschaffung eines Raids mindestens die Anzahl der aktiv verwendetenPlatten nochmals einlagern. (d.h. NICHT als HotStandBy sondern orginaleingepackt im Regal)


Warum?

Auch wenn in Raids, in der Regel, Platten aus unterschiedlicherProduktionsreihen (Datum) verwendet werden um eben das Risiko einesgleichzeitigen Ausfall mehrerer Platten, zumindest durchunterschiedliche Fertigungsreihen, zu minimieren, kann man dies jedochnicht ausschliessen.

Baugleiche Platten können unter Umständen nach mehreren Jahren nichtmehr bezogen werden und ein Plattenmix ist nicht zu empfehlen.

Die zweite Platte fällt immer dann aus wenn die erste gerade'verbraucht' wurde und keine weitere zur Hand ist. (Murphy oder so)


Gruß,
Klaus

-- 
----------------------------------------------------------------------------
PUG - Penguin User Group Wiesbaden - http://www.pug.org

Re: [PUG] HILFE!!!! Unsere Datein scheinen verloren zu sein

Antwort per Email an