On 2012-10-23 11:17, Alexander Rusa wrote:
Jetzt hat rrdcached wieder "aufgegeben" - liest kein journal-file mehr ein und
var/rrdcached wächst wieder weiter ohne kleiner geworden zu sein.
die CPU-usage von rrdcached tendiert gegen 0% und strace sagt nur mehr:
poll([{fd=4, events=POLLIN|POLLPRI}], 1, 1000) = 0 (Timeout)
poll([{fd=4, events=POLLIN|POLLPRI}], 1, 1000) = 0 (Timeout)
...
Für den rrdcached gibt es ja leider kein Logfile, oder?
doch - wenn deine syslog facility mit LOG_DAEMON umgehen kann.
http://oss.oetiker.ch/rrdtool/doc/rrdcached.en.html
LG Alex
Am 23.10.2012 um 11:13 schrieb Alexander Rusa <[email protected]>:
Der Server ist ein Dual-Xeon 3GHz mit 2GB Ram.
Darauf läuft Ubuntu 10.04 x86_64.
OMD hab ich damals mit 0.48 installiert und inzwischen bis 0.56 upgegraded (mit
den entsprechenden .deb-files).
Ich hab jetzt mal omd restarted und gleich anschließend apache gestoppt um
Ressourcen frei zu machen.
Jetzt läuft rrdcached mit 80-100% CPU usage und der Diskspace steigt momentan
nicht mehr an.
strace und lsof nach zu urteilen liest rrdcached gerade ein journalfile ein.
Ich vermute, dass die journal-files einfach zu viel geworden sind...
Gerade eben als ich das schreibe ist das var/rrdcached wieder um 2mb größer
geworden :-/
LG Alex
Am 23.10.2012 um 11:00 schrieb Joerg Linge <[email protected]>:
Können wir etwas mehr infos über dein System bekommen?
Betriebssystem?
Architektur?
in var/rrdcached wird nur gesammelt was noch nicht in die RRDs geschrieben
wurde.
Diese Verzeichnis darf nicht wachsen.
Das Problem hat auch nix mit PNP4nagios zu tun.
PNP verwendet nur den rrdcached um den Disk I/O zu minimieren.
Jörg
Am 23.10.2012 um 10:13 schrieb Alexander Rusa <[email protected]>:
Hallo,
ich habe heute morgen entdeckt, dass eher keine Timeout-errors mehr auftreten
und alles OK aussieht im perfdata.log.
Aber was ich nicht und nicht verstehe ist warum die rrdcache-journal-Daten
immer mehr werden und welcher Prozess mit diesen Daten eigentlich was genau
machen sollte!
kann mir bitte jemand helfen das zu verstehen?
Mir kommt vor dieser Part fehlt irgendwie in der Grafik auf
http://omdistro.org/wiki/omd/Pnp4nagios
Ich habe jetzt schon über 160 Dateien mit insgesamt über 11GB in
omd/sites/.../var/rrdcached/rrd.journal.* und es werden scheinbar nicht weniger.
LG Alex
Am 22.10.2012 um 16:42 schrieb Alexander Rusa <[email protected]>:
Hi,
My /opt/omd/sites/.../var/rrdcached directory is growing very fast.
At the moment it contains 151 files with a total of ~9GB.
Currently I am running version 0.56.
It looks like this problem exists since upgrading to 0.52.
Last week I tried to find the source of the problem and ended up deleting
everything inside var/pnp4nagios/perfdata/ because I found out that there were
some problems because the RRD_STORAGE_TYPE was changed to MULTIPLE and after
spending some hours in trying to convert the old rrd-files I gave up and
deleted the whole performance-data-history.
Now the Disk space is again critical and I have no idea what the problem could
be!
We are monitoring about 4000 Services.
The var/pnp4nagios/log/perfdata.log shows nothing but timeouts:
#####
...
2012-10-22 16:25:29 [20877] [1] process_perfdata.pl-0.6.19 starting in BULK
Mode called by NPCD
2012-10-22 16:25:29 [20877] [1] Found Performance Data for server1 / _HOST_
(rta=0.241ms;200.000;500.000;0; pl=0%;40;80;; rtmax=0.298ms;;;;
rtmin=0.198ms;;;;)
2012-10-22 16:25:29 [20879] [1] process_perfdata.pl-0.6.19 starting in BULK
Mode called by NPCD
2012-10-22 16:25:29 [20879] [1] Found Performance Data for server2 / CPU_load
(load1=8.13;20;40;0; load5=8.8;20;40;0; load15=9.12;20;40;0;)
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Timeout after 15 secs. ***
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Deleting current file to avoid
NPCD loops
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Please check your
process_perfdata.cfg
2012-10-22 16:25:44 [20877] [0] *** TIMEOUT:
/omd/sites/emerion/var/pnp4nagios/spool//perfdata.1350915913-PID-20877 deleted
2012-10-22 16:25:44 [20877] [0] *** Timeout while processing Host: "server1" Service:
"_HOST_"
2012-10-22 16:25:44 [20877] [0] *** process_perfdata.pl terminated on signal
ALRM
...
#####
Can anyone tell me where I could find the root for the problem?
One thing I know is, that the server sometimes has a very high load and we are
planing to move some services away from this machine, but even when I stop some
resource-eating services only timeouts are showing up in the perfdata.log
Best regards,
Alex
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users