Dan Lukes wrote (2016/06/01): > Jo, vim o nekom, kdo prisel o RAID5 prestoze pole melo 'spare' disk. > Chcipnul prvni disk, RAID5 presel do degradovaneho modu, aktivoval spare > a zacal dopocitavat. A o necelou pulminutu pozdeji zdechnul druhy disk a > bylo vymalovano ...
Ahoj, nebudu to teď psát osobně, ale obecně - dlouhodobě bojuju se dvěma předsudkama, které se nedaří z lidí vytlouct, tak třeba trocha osvěty pomůže ;o) 1) První, když chci mít RAID, musím se o něj starat. Tj. ne "přestože pole mělo spare disk" (= jednou tam zapíchnu disk navíc a dál se nestarám), ale "přestože pole dělalo pravidelný patrol read a consistency check" (= dělají se pravidelné plné kontroly čitelnosti všech sektorů všech disků a kontroly konzistence kontrolních součtů a výstupy kontroluju). Nebo u všech disků aspoň pravidelný smart long test, když už nic jiného. A týká se to jak HW RAIDů, tak i SW RAIDů (a je pravda, že u SW se na tuto nutnost zapomíná ještě častěji), nebo i jednotlivých disků. A aspoň jednou za měsíc, ale my používáme zásadně jednou týdně. Pak je minimální pravděpodobnost, že rebuild selže. Kdo ale má v RAIDu disky, u kterých se některé sektory nezkoušely číst nebo zapisovat několik let, tak se vůbec nemůže divit, že se mu rebuild nepovede. Je nutné si totiž mimo jiné uvědomit, že u datového přístupu je pravděpodobnost chyby čtení mnohem nižší, protože se čtou jen data zapsaná "teprve nedávno", kdežto u rebuildu se čtou všechny sektory všech disků, tj. musí se přečíst i ty sektory, které třeba ještě nikdy nebyly uživatelem přepsané, pouze inicializované výrobcem. (Ano, existuje i rebuild bez kontroly ECC s ochotou přeskočit pár nečitelných sektorů, jenže to už nikdo neví, která data jsou správná a která ne, a to je pak zralé na překopírování na jiný RAID s nadějí, že chyby byly jen u nepoužívaných sektorů.) A pokud se u RAIDu pravidelné kontroly čitelnosti a konzistence nedělaly, je ztráta dat spíš jen otázkou času, než čehokoli jiného. Jestli spare disk umožní okamžitý rebuild, nebo se chvíli počká na výměnu disků ručně, to už u RAIDu, který by měl umět fungovat několik let, nehraje tak velkou roli - spíš to asi bude otravovat admina, který se navíc nemusí při vytahování trefit. 2) A druhý, RAID v žádném případě nemůže nahradit dislokované zálohování. Stačí pomyslet buď na klasiku požár, potopa, zloděj či dnes už i ransomware, nebo mnohem zábavnější problémy typu "odešel 10 let starý řadič". Schválně, budete shánět novější typ a budete doufat, že se disky v tom novém chytí (nejlépe po akvizici jedné firmy druhou), nebo začnete shánět, jestli někdo nemá stejný řadič vyřazený a schovaný v šuplíku a nebude ochoten vám ho dát? :o) -- Rudolf Cejka <cejkar at fit.vutbr.cz> http://www.fit.vutbr.cz/~cejkar Brno University of Technology, Faculty of Information Technology Bozetechova 2, 612 66 Brno, Czech Republic -- FreeBSD mailing list (users-l@freebsd.cz) http://www.freebsd.cz/listserv/listinfo/users-l