On Wed, 8 Feb 2012, Wojciech Błaszkowski wrote:

Dnia Wednesday 08 of February 2012, Jacek Osiecki napisał:
  - nagios: szybka konfiguracja przez pliki, bezproblemowe rozszerzanie
    listy testów za pomocą nrpe (lokalnego agenta), można np. sobie na
    każdym serwerze zdefiniować inną listę filesystemów do sprawdzania
    wolnego miejsca, inne komendy do sprawdzania poprawności działania
    RAIDów (czy to soft, czy hardware), własne testy (np. raportowanie
    czy wykonały się nocne backupy). Niestety - wady to trzy stany (OK,
    WARNING, ERROR, no dobra - cztery stany bo jest UNKNOWN), brak
    możliwości monitorowania wydajności (obciążenie systemu, czasy
    odpowiedzi apache'a itp.)

Byzydura :)
Za pomocą nagiosa możesz monitorować nawet temperaturę za oknem czy obroty
wiertarki. Konieczne są 2 rzeczy: monitorowana rzecz z odpalonym Linuksem i
plugin NRPE. Do obciążenia systemu można stosować choćby wbudowany check_load.
Generalnie dużą część pluginów można napisać w 2h samemu. Polecam Pythona.
Nadaje się do tego GENIALNIE.

Nie, nie zrozumieliśmy się :)
To że monitorować można to wiem. Chodzi o to, że nagios może tylko powiedzieć że coś się stało (lub dzieje), natomiast pełny monitoring jaki się robi np. przy użyciu cacti pozwala na dokładną analizę. Przykład: przestaje działać strona WWW. Nagios nas o tym poinformuje, zobaczymy że było OK i jest CRITICAL, ew. jakiś WARNING po drodze. Nawet jeśli inne testy (mysql, obciążenie dysków, ramu) miały po drodze warningi nadal jest to korelacja 0/1. Nie wiemy nic o tym czy np. ilość zapytań do mysqla nagle wzrosła o 300% czy rosła aż do punktu X gdzie został przekroczony próg krytyczny, pamięć się skończyła, system wlazł na swapa, mysql przestał odpowiadać na zapytania itd...

Dla mnie 4 stany w zupełności wystarczają, aby wszcząć czerwony alarm, zerknąć
na maszynę lub spokojnie pić kawę ;-)

Jasne. Ale jak już się przytrafi awaria, to miło by było mieć wgląd w szczegóły danych historycznych by wiedzieć co było (bez)pośrednią przyczyną i jak temu zapobiegać.

BTW, dla temperatury 4 wartości (w tym jedna UNKNOWN) to IMHO trochę za mało... Dla obecnych np. nie powinno być CRITICAL tylko coś w rodzaju OJAPIERD*LE :)

Pozdrawiam,
--
Jacek Osiecki [email protected] GG:3828944
I don't want something I need. I want something I want.
_______________________________________________
pld-devel-pl mailing list
[email protected]
http://lists.pld-linux.org/mailman/listinfo/pld-devel-pl

Odpowiedź listem elektroniczym