On 2/9/06, Tarhon-Onu Victor <[EMAIL PROTECTED]> wrote:
>
> On Thu, 9 Feb 2006, metadev wrote:
>
> > Cum se pupa cu serverele reale? Folositi ceva setari de overcommit in
> > productie sau mult ram + swap?
>
>         Se pupa bine, insa deja daca pe un server in productie iti intra
> in actiune oom killer-ul atunci ai o mare problema: fie software-ul pe
> care-l rulezi e scris prost (nu elibereaza memoria, apar deadlock-uri,
> etc) fie hardware-ul e dimensionat prost.
>
> > Nu ma intereseaza argumentele care sa explice de ce e bun, cum ar fi
> > mai rau daca l-am scoate ...
>
>         Cel mai sensibil de folosit e pe un server de baze de date.
> Depinde ce vrei, daca-ti permiti ca la un moment dat in loc sa stea o
> droaie de instante si sa-ti haleasca ram-ul si sa-ti invirta hdd-ul de
> sa nu se mai intimple nimic in loc sa omoare ce are de omorit (cu riscul
> pierderii datelor tranzactionate de acea/acele instante) - si cam asta e
> si ideea in majoritatea (deci nu in toate) cazurilor in care vorbesti de
> "productie" atunci e ok, lucreaza ok.
>         Este foarte important ca swap-ul sa fie dimensionat
> corespunzator relativ la cantitatea de ram de pe masina si la nevoile de
> memorie virtuala ale aplicatiilor ce ruleaza pe acel server pentru ca
> oom killerul sa actioneze suficient de tirziu pentru a nu se considera
> prea devreme si suficient de devreme pentru ca pierderile sa fie minime.
>

Sunt de acord ca daca ajunge sa intre OOM killerul e ceva in neregula
(software cu buguri sau hardware prea subtire). Ce ma deranjeaza e ca  nu
vad cum pot sa fac recovery in urma unui OOM kill.

Dupa ce load-ul a trecut serverul ramane intr-o stare nedefinita. Trebuie
cumva sa ma asigur ca runlevel-ul curent e intregru (toti demonii ruleaza).
Cum pot sa fac asta? Un cron-job nu merge (cron-ul poate a fost killarit).
Procese care sa reporneasca demonii nu pot sa folosesc pentru ca si ele pot
suferi fatalitatea.

Ce solutii sunt? Un agent extern (pe alta masina) care grep-uieste prin
loguri si cand da de OOM da o comanda la server? Pot proteja anumite procese
de OOM?

Probabil ca imi veti spune ca daca a aparut e nevoie de interventie umana sa
corecteze problema (soft prost care trebuie upgradat/corectat). Dar daca
este doar un spike? Un recovery elegant ar fi sa incerce sa reia
functionarea.

Bogdan
_______________________________________________
RLUG mailing list
[email protected]
http://lists.lug.ro/mailman/listinfo/rlug

Raspunde prin e-mail lui