On 2012-10-23 11:17, Alexander Rusa wrote:
Jetzt hat rrdcached wieder "aufgegeben" - liest kein journal-file mehr ein und 
var/rrdcached wächst wieder weiter ohne kleiner geworden zu sein.
die CPU-usage von rrdcached tendiert gegen 0% und strace sagt nur mehr:

        poll([{fd=4, events=POLLIN|POLLPRI}], 1, 1000) = 0 (Timeout)
        poll([{fd=4, events=POLLIN|POLLPRI}], 1, 1000) = 0 (Timeout)
        ...

Für den rrdcached gibt es ja leider kein Logfile, oder?

doch - wenn deine syslog facility mit LOG_DAEMON umgehen kann.
http://oss.oetiker.ch/rrdtool/doc/rrdcached.en.html


LG Alex

Am 23.10.2012 um 11:13 schrieb Alexander Rusa <[email protected]>:

Der Server ist ein Dual-Xeon 3GHz mit 2GB Ram.
Darauf läuft Ubuntu 10.04 x86_64.
OMD hab ich damals mit 0.48 installiert und inzwischen bis 0.56 upgegraded (mit 
den entsprechenden .deb-files).

Ich hab jetzt mal omd restarted und gleich anschließend apache gestoppt um 
Ressourcen frei zu machen.
Jetzt läuft rrdcached mit 80-100% CPU usage und der Diskspace steigt momentan 
nicht mehr an.
strace und lsof nach zu urteilen liest rrdcached gerade ein journalfile ein.

Ich vermute, dass die journal-files einfach zu viel geworden sind...
Gerade eben als ich das schreibe ist das var/rrdcached wieder um 2mb größer 
geworden :-/

LG Alex


Am 23.10.2012 um 11:00 schrieb Joerg Linge <[email protected]>:

Können wir etwas mehr infos über dein System bekommen?

Betriebssystem?
Architektur?

in var/rrdcached wird nur gesammelt was noch nicht in die RRDs geschrieben 
wurde.
Diese Verzeichnis darf nicht wachsen.

Das Problem hat auch nix mit PNP4nagios zu tun.
PNP verwendet nur den rrdcached um den Disk I/O zu minimieren.

Jörg


Am 23.10.2012 um 10:13 schrieb Alexander Rusa <[email protected]>:

Hallo,

ich habe heute morgen entdeckt, dass eher keine Timeout-errors mehr auftreten 
und alles OK aussieht im perfdata.log.

Aber was ich nicht und nicht verstehe ist warum die rrdcache-journal-Daten 
immer mehr werden und welcher Prozess mit diesen Daten eigentlich was genau 
machen sollte!
kann mir bitte jemand helfen das zu verstehen?

Mir kommt vor dieser Part fehlt irgendwie in der Grafik auf 
http://omdistro.org/wiki/omd/Pnp4nagios

Ich habe jetzt schon über 160 Dateien mit insgesamt über 11GB in 
omd/sites/.../var/rrdcached/rrd.journal.* und es werden scheinbar nicht weniger.

LG Alex

Am 22.10.2012 um 16:42 schrieb Alexander Rusa <[email protected]>:

Hi,

My /opt/omd/sites/.../var/rrdcached directory is growing very fast.
At the moment it contains 151 files with a total of ~9GB.
Currently I am running version 0.56.
It looks like this problem exists since upgrading to 0.52.

Last week I tried to find the source of the problem and ended up deleting 
everything inside var/pnp4nagios/perfdata/ because I found out that there were 
some problems because the RRD_STORAGE_TYPE was changed to MULTIPLE and after 
spending some hours in trying to convert the old rrd-files I gave up and 
deleted the whole performance-data-history.

Now the Disk space is again critical and I have no idea what the problem could 
be!

We are monitoring about 4000 Services.

The var/pnp4nagios/log/perfdata.log shows nothing but timeouts:

#####
...
2012-10-22 16:25:29 [20877] [1] process_perfdata.pl-0.6.19 starting in BULK 
Mode called by NPCD
2012-10-22 16:25:29 [20877] [1] Found Performance Data for server1 / _HOST_ 
(rta=0.241ms;200.000;500.000;0; pl=0%;40;80;; rtmax=0.298ms;;;; 
rtmin=0.198ms;;;;)
2012-10-22 16:25:29 [20879] [1] process_perfdata.pl-0.6.19 starting in BULK 
Mode called by NPCD
2012-10-22 16:25:29 [20879] [1] Found Performance Data for server2 / CPU_load 
(load1=8.13;20;40;0; load5=8.8;20;40;0; load15=9.12;20;40;0;)
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Timeout after 15 secs. ***
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Deleting current file to avoid 
NPCD loops
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Please check your 
process_perfdata.cfg
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: 
/omd/sites/emerion/var/pnp4nagios/spool//perfdata.1350915913-PID-20877 deleted
2012-10-22 16:25:44 [20877] [0] *** Timeout while processing Host: "server1" Service: 
"_HOST_"
2012-10-22 16:25:44 [20877] [0] *** process_perfdata.pl terminated on signal 
ALRM
...
#####

Can anyone tell me where I could find the root for the problem?

One thing I know is, that the server sometimes has a very high load and we are 
planing to move some services away from this machine, but even when I stop some 
resource-eating services only timeouts are showing up in the perfdata.log

Best regards,

Alex
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users

_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users

_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users

_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users

Reply via email to