On 2/9/06, Tarhon-Onu Victor <[EMAIL PROTECTED]> wrote: > > On Thu, 9 Feb 2006, metadev wrote: > > > Cum se pupa cu serverele reale? Folositi ceva setari de overcommit in > > productie sau mult ram + swap? > > Se pupa bine, insa deja daca pe un server in productie iti intra > in actiune oom killer-ul atunci ai o mare problema: fie software-ul pe > care-l rulezi e scris prost (nu elibereaza memoria, apar deadlock-uri, > etc) fie hardware-ul e dimensionat prost. > > > Nu ma intereseaza argumentele care sa explice de ce e bun, cum ar fi > > mai rau daca l-am scoate ... > > Cel mai sensibil de folosit e pe un server de baze de date. > Depinde ce vrei, daca-ti permiti ca la un moment dat in loc sa stea o > droaie de instante si sa-ti haleasca ram-ul si sa-ti invirta hdd-ul de > sa nu se mai intimple nimic in loc sa omoare ce are de omorit (cu riscul > pierderii datelor tranzactionate de acea/acele instante) - si cam asta e > si ideea in majoritatea (deci nu in toate) cazurilor in care vorbesti de > "productie" atunci e ok, lucreaza ok. > Este foarte important ca swap-ul sa fie dimensionat > corespunzator relativ la cantitatea de ram de pe masina si la nevoile de > memorie virtuala ale aplicatiilor ce ruleaza pe acel server pentru ca > oom killerul sa actioneze suficient de tirziu pentru a nu se considera > prea devreme si suficient de devreme pentru ca pierderile sa fie minime. >
Sunt de acord ca daca ajunge sa intre OOM killerul e ceva in neregula (software cu buguri sau hardware prea subtire). Ce ma deranjeaza e ca nu vad cum pot sa fac recovery in urma unui OOM kill. Dupa ce load-ul a trecut serverul ramane intr-o stare nedefinita. Trebuie cumva sa ma asigur ca runlevel-ul curent e intregru (toti demonii ruleaza). Cum pot sa fac asta? Un cron-job nu merge (cron-ul poate a fost killarit). Procese care sa reporneasca demonii nu pot sa folosesc pentru ca si ele pot suferi fatalitatea. Ce solutii sunt? Un agent extern (pe alta masina) care grep-uieste prin loguri si cand da de OOM da o comanda la server? Pot proteja anumite procese de OOM? Probabil ca imi veti spune ca daca a aparut e nevoie de interventie umana sa corecteze problema (soft prost care trebuie upgradat/corectat). Dar daca este doar un spike? Un recovery elegant ar fi sa incerce sa reia functionarea. Bogdan _______________________________________________ RLUG mailing list [email protected] http://lists.lug.ro/mailman/listinfo/rlug
