Der Server ist ein Dual-Xeon 3GHz mit 2GB Ram. Darauf läuft Ubuntu 10.04 x86_64. OMD hab ich damals mit 0.48 installiert und inzwischen bis 0.56 upgegraded (mit den entsprechenden .deb-files).
Ich hab jetzt mal omd restarted und gleich anschließend apache gestoppt um Ressourcen frei zu machen. Jetzt läuft rrdcached mit 80-100% CPU usage und der Diskspace steigt momentan nicht mehr an. strace und lsof nach zu urteilen liest rrdcached gerade ein journalfile ein. Ich vermute, dass die journal-files einfach zu viel geworden sind... Gerade eben als ich das schreibe ist das var/rrdcached wieder um 2mb größer geworden :-/ LG Alex Am 23.10.2012 um 11:00 schrieb Joerg Linge <[email protected]>: > Können wir etwas mehr infos über dein System bekommen? > > Betriebssystem? > Architektur? > > in var/rrdcached wird nur gesammelt was noch nicht in die RRDs geschrieben > wurde. > Diese Verzeichnis darf nicht wachsen. > > Das Problem hat auch nix mit PNP4nagios zu tun. > PNP verwendet nur den rrdcached um den Disk I/O zu minimieren. > > Jörg > > > Am 23.10.2012 um 10:13 schrieb Alexander Rusa <[email protected]>: > >> Hallo, >> >> ich habe heute morgen entdeckt, dass eher keine Timeout-errors mehr >> auftreten und alles OK aussieht im perfdata.log. >> >> Aber was ich nicht und nicht verstehe ist warum die rrdcache-journal-Daten >> immer mehr werden und welcher Prozess mit diesen Daten eigentlich was genau >> machen sollte! >> kann mir bitte jemand helfen das zu verstehen? >> >> Mir kommt vor dieser Part fehlt irgendwie in der Grafik auf >> http://omdistro.org/wiki/omd/Pnp4nagios >> >> Ich habe jetzt schon über 160 Dateien mit insgesamt über 11GB in >> omd/sites/.../var/rrdcached/rrd.journal.* und es werden scheinbar nicht >> weniger. >> >> LG Alex >> >> Am 22.10.2012 um 16:42 schrieb Alexander Rusa <[email protected]>: >> >>> Hi, >>> >>> My /opt/omd/sites/.../var/rrdcached directory is growing very fast. >>> At the moment it contains 151 files with a total of ~9GB. >>> Currently I am running version 0.56. >>> It looks like this problem exists since upgrading to 0.52. >>> >>> Last week I tried to find the source of the problem and ended up deleting >>> everything inside var/pnp4nagios/perfdata/ because I found out that there >>> were some problems because the RRD_STORAGE_TYPE was changed to MULTIPLE and >>> after spending some hours in trying to convert the old rrd-files I gave up >>> and deleted the whole performance-data-history. >>> >>> Now the Disk space is again critical and I have no idea what the problem >>> could be! >>> >>> We are monitoring about 4000 Services. >>> >>> The var/pnp4nagios/log/perfdata.log shows nothing but timeouts: >>> >>> ##### >>> ... >>> 2012-10-22 16:25:29 [20877] [1] process_perfdata.pl-0.6.19 starting in BULK >>> Mode called by NPCD >>> 2012-10-22 16:25:29 [20877] [1] Found Performance Data for server1 / _HOST_ >>> (rta=0.241ms;200.000;500.000;0; pl=0%;40;80;; rtmax=0.298ms;;;; >>> rtmin=0.198ms;;;;) >>> 2012-10-22 16:25:29 [20879] [1] process_perfdata.pl-0.6.19 starting in BULK >>> Mode called by NPCD >>> 2012-10-22 16:25:29 [20879] [1] Found Performance Data for server2 / >>> CPU_load (load1=8.13;20;40;0; load5=8.8;20;40;0; load15=9.12;20;40;0;) >>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Timeout after 15 secs. *** >>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Deleting current file to avoid >>> NPCD loops >>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Please check your >>> process_perfdata.cfg >>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: >>> /omd/sites/emerion/var/pnp4nagios/spool//perfdata.1350915913-PID-20877 >>> deleted >>> 2012-10-22 16:25:44 [20877] [0] *** Timeout while processing Host: >>> "server1" Service: "_HOST_" >>> 2012-10-22 16:25:44 [20877] [0] *** process_perfdata.pl terminated on >>> signal ALRM >>> ... >>> ##### >>> >>> Can anyone tell me where I could find the root for the problem? >>> >>> One thing I know is, that the server sometimes has a very high load and we >>> are planing to move some services away from this machine, but even when I >>> stop some resource-eating services only timeouts are showing up in the >>> perfdata.log >>> >>> Best regards, >>> >>> Alex >>> _______________________________________________ >>> omd-users mailing list >>> [email protected] >>> http://lists.mathias-kettner.de/mailman/listinfo/omd-users >> >> _______________________________________________ >> omd-users mailing list >> [email protected] >> http://lists.mathias-kettner.de/mailman/listinfo/omd-users > > _______________________________________________ > omd-users mailing list > [email protected] > http://lists.mathias-kettner.de/mailman/listinfo/omd-users > _______________________________________________ omd-users mailing list [email protected] http://lists.mathias-kettner.de/mailman/listinfo/omd-users
