Re: [rlug] random check > 1 luna

Alex 'CAVE' Cernat via RLUG Tue, 26 Sep 2023 08:58:11 -0700

On 26-Sep-23 17:22, Adrian Sevcenco via RLUG wrote:

On 9/26/23 14:51, Alex 'CAVE' Cernat via RLUG wrote:
On 26-Sep-23 14:36, Adrian Sevcenco via RLUG wrote:
Din ce stiu la raid6 e detectabila notiunea de chunk corupt si sereface (cu repair in loc de check) dar pentru raid1 am inteles casolutia pentru bit-rot e sa pui sub raid1 un dm-integrity
bine am citit si raid6 facut peste dm-integrity dar nu vad rostul
Adrian
la raid6+ da, pentru ca ai 2+ paritati (presupunand ca raidul e 100%functional cu toate hardurile, daca nu ... cred ca sanatate), insa mai
fiecare chunk are si celelate 2 paritati, cu 2 discuri cazute poti safaci rebuild chiar si in productie ... doar ca iti cam tzatzaiebackside-ul ca rebuildul in productie poate dura si mai mult de osaptamana si daca ai un un-recoverable error la ce ai in rest intimpul rebuild-ului atunci chiar ai pierdut tot (poti sa ai nroc si salamuresti md-ul ca ce i se pare lui ca lipsestes in mod ne-recuperabilde fapt e ok si apoi sa iti mearga fsck-ul pe ce se vede in sistemulde fisiere si sa ai doar un numar de indouri lipsa)

nu vorbeam de refacerea array-ului, vorbeam de integritatea datelor; din2 paritati cred ca poti sa-ti dai seama care din stripe-uri a luat-orazna si sa corectezi problema (combinatorica + brute force, sau poate ofi ceva mai inteligent), dintr-o singura paritate poti constata doar caceva e belit, aka ai cel mult error detection, nu si correction

Dupa primele 2x100 TB pierdute acum scot direct din productie md-urilecu 2 discuri picate, dar nu s-a mai intimplat de atunci (era o masinadubioasa cu cablaj dubios la expandere etc)
jos cutzu, poti detecta eroarea citind de pe disc, dar nu ai de undesa stii care date sunt cele corecte
de aia la zfs au bagat din start checksumming, acolo integritateadatelor se testeaza chiar on-the-fly si repararea asisderea (cat timpnu esti marele ghinionist sa ti se beleasca fix chunkurile caretrebuie :-P); si asta la orice fel de raid, inclusiv mirror; lanon-raid, doar stii ca ai pus-o de mamaliga, eventual poate te apucide brute-force sa reconstitui datele :-D
din punctul meu de vedere zfs-ul e irelevant atat timp cat nu existain kernel .. evident punctul meu de vedere e irelevant, dar sunt multioameni cu mult hardware in spate care gandesc (si actioneaza) la fel ...pe aceiasi idee in cercul meu "social" ferme de gpu computing cunvidia au fost inlocuite cu insticturile de la amd ...

nu pentru performante este iubit zfs-ul (desi culmea, daca investestidestul in hardware poti obtine rezultate chiar comparabile cu"concurenta"), ci pentru "feature-urile" care le are

tu am vazut ca esti pe calea "palariei", afaik ubuntu are support inkernel, iar pe debian ai pachetele de kernel & utils de la proxmox(recompilat kernelul din ubuntu), pe care le folosesc cu succes decateva versiuni incoace, deci s-ar putea sa fac in curand deceniul :-P

in plus tin minte ca acum ani de zile a fost testat la profilul nostrude load-uri si a fost categorisit ca imposibil de utilizat :D
noi (cercul meu "social" :) ) folosim un sistem numit EOS, ce e un felde sistem distribuit de fisiere (ce foloseste fs-uri existente pemasina deci nu raw block deviceuri) ce are si checksumming si stie simodele de redundanta, doar ca are niste quirk-uri ce pentru oamenisaraci ca mine (4 PB) il fac un pic detrimental utilizarii, desi ar finiste facilitati obligatorii pentru siguranta datelor (in fault mode,daca nu gaseste prin cluster un fs pentru recovery atunci blocheazacel putin write-ul la grupul respectiv de fs-uri)
Mno, nu e vineri dar mi-a fost dor de o flama pe aici ... am putea samai bagam ca prea e liniste :D

pai da, cam liniste pe grupul asta, toata lumea o fi pe fb (sau mai nounoile generatii-s pe tictoci)

idem pe la san-uri si (macar) unele hw raid, doar ca pe acolo sunt mai
NAS-uri vrei sa zici ? sa san-urile sunt mai multe discuri prindiverse locuri in data center la care au access 1 sau mai multeservere (prin SAS) .. e ca si cum ar fi in carcasa (asa cum in curando sa fie memoria, gpu-uri, NIC-uri/DPU-uri, NVME etc prin CXL)

nope, nas am zis, nas am gandit; bine, sper ca nu m-au pacalit cuterminologia zfs, insa un "scrub" nu vad cum il pot traduce decat ca ooperatie de verificare a array-ului (sau plural), poate eventual si cevarebalansare, daca e cazul

au san-urile de la hp (chiar si alea msa mici) de vreo 10 ani cel putin

mult sau mai putin "invaluite in magie", ca nu ai acces low level
mda, acum 15-20 ani am fost fan la placile raid hw dar dupa nisteintimplari (legate si de faptul ca la noi servere pot sa fie inproductie si dupa 10 ani) m-am jurat ca nu mai folosesc asa ceva vreodata

sunt bune daca urmezi "calea"; daca iesi de pe traseul lor (de exemplusa te apuci sa pui zfs pe niste hp-uri) deja incepe distractie maxima,iti doresti sa fi luat niste troace, ca sigur erau mai putine batai de capinsa dupa cum ziceam, daca nu te abati din "intented usage", ai maiputine batai de cap decat daca ai fi pornit cu "vaporware"bine, cand esti gogu sau amazon si ai milioane de pseudo-waporware (defapt nu-i, doar cel mult arata de la distanta), deja e alta mancare depeste, ca ala devine "de firma"


Alex


_______________________________________________
RLUG mailing list
RLUG@lists.lug.ro
http://lists.lug.ro/mailman/listinfo/rlug_lists.lug.ro

Re: [rlug] random check > 1 luna

Raspunde prin e-mail lui