Jetzt hat rrdcached wieder "aufgegeben" - liest kein journal-file mehr ein und
var/rrdcached wächst wieder weiter ohne kleiner geworden zu sein.
die CPU-usage von rrdcached tendiert gegen 0% und strace sagt nur mehr:
poll([{fd=4, events=POLLIN|POLLPRI}], 1, 1000) = 0 (Timeout)
poll([{fd=4, events=POLLIN|POLLPRI}], 1, 1000) = 0 (Timeout)
...
Für den rrdcached gibt es ja leider kein Logfile, oder?
LG Alex
Am 23.10.2012 um 11:13 schrieb Alexander Rusa <[email protected]>:
> Der Server ist ein Dual-Xeon 3GHz mit 2GB Ram.
> Darauf läuft Ubuntu 10.04 x86_64.
> OMD hab ich damals mit 0.48 installiert und inzwischen bis 0.56 upgegraded
> (mit den entsprechenden .deb-files).
>
> Ich hab jetzt mal omd restarted und gleich anschließend apache gestoppt um
> Ressourcen frei zu machen.
> Jetzt läuft rrdcached mit 80-100% CPU usage und der Diskspace steigt momentan
> nicht mehr an.
> strace und lsof nach zu urteilen liest rrdcached gerade ein journalfile ein.
>
> Ich vermute, dass die journal-files einfach zu viel geworden sind...
> Gerade eben als ich das schreibe ist das var/rrdcached wieder um 2mb größer
> geworden :-/
>
> LG Alex
>
>
> Am 23.10.2012 um 11:00 schrieb Joerg Linge <[email protected]>:
>
>> Können wir etwas mehr infos über dein System bekommen?
>>
>> Betriebssystem?
>> Architektur?
>>
>> in var/rrdcached wird nur gesammelt was noch nicht in die RRDs geschrieben
>> wurde.
>> Diese Verzeichnis darf nicht wachsen.
>>
>> Das Problem hat auch nix mit PNP4nagios zu tun.
>> PNP verwendet nur den rrdcached um den Disk I/O zu minimieren.
>>
>> Jörg
>>
>>
>> Am 23.10.2012 um 10:13 schrieb Alexander Rusa <[email protected]>:
>>
>>> Hallo,
>>>
>>> ich habe heute morgen entdeckt, dass eher keine Timeout-errors mehr
>>> auftreten und alles OK aussieht im perfdata.log.
>>>
>>> Aber was ich nicht und nicht verstehe ist warum die rrdcache-journal-Daten
>>> immer mehr werden und welcher Prozess mit diesen Daten eigentlich was genau
>>> machen sollte!
>>> kann mir bitte jemand helfen das zu verstehen?
>>>
>>> Mir kommt vor dieser Part fehlt irgendwie in der Grafik auf
>>> http://omdistro.org/wiki/omd/Pnp4nagios
>>>
>>> Ich habe jetzt schon über 160 Dateien mit insgesamt über 11GB in
>>> omd/sites/.../var/rrdcached/rrd.journal.* und es werden scheinbar nicht
>>> weniger.
>>>
>>> LG Alex
>>>
>>> Am 22.10.2012 um 16:42 schrieb Alexander Rusa <[email protected]>:
>>>
>>>> Hi,
>>>>
>>>> My /opt/omd/sites/.../var/rrdcached directory is growing very fast.
>>>> At the moment it contains 151 files with a total of ~9GB.
>>>> Currently I am running version 0.56.
>>>> It looks like this problem exists since upgrading to 0.52.
>>>>
>>>> Last week I tried to find the source of the problem and ended up deleting
>>>> everything inside var/pnp4nagios/perfdata/ because I found out that there
>>>> were some problems because the RRD_STORAGE_TYPE was changed to MULTIPLE
>>>> and after spending some hours in trying to convert the old rrd-files I
>>>> gave up and deleted the whole performance-data-history.
>>>>
>>>> Now the Disk space is again critical and I have no idea what the problem
>>>> could be!
>>>>
>>>> We are monitoring about 4000 Services.
>>>>
>>>> The var/pnp4nagios/log/perfdata.log shows nothing but timeouts:
>>>>
>>>> #####
>>>> ...
>>>> 2012-10-22 16:25:29 [20877] [1] process_perfdata.pl-0.6.19 starting in
>>>> BULK Mode called by NPCD
>>>> 2012-10-22 16:25:29 [20877] [1] Found Performance Data for server1 /
>>>> _HOST_ (rta=0.241ms;200.000;500.000;0; pl=0%;40;80;; rtmax=0.298ms;;;;
>>>> rtmin=0.198ms;;;;)
>>>> 2012-10-22 16:25:29 [20879] [1] process_perfdata.pl-0.6.19 starting in
>>>> BULK Mode called by NPCD
>>>> 2012-10-22 16:25:29 [20879] [1] Found Performance Data for server2 /
>>>> CPU_load (load1=8.13;20;40;0; load5=8.8;20;40;0; load15=9.12;20;40;0;)
>>>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Timeout after 15 secs. ***
>>>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Deleting current file to
>>>> avoid NPCD loops
>>>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT: Please check your
>>>> process_perfdata.cfg
>>>> 2012-10-22 16:25:44 [20877] [0] *** TIMEOUT:
>>>> /omd/sites/emerion/var/pnp4nagios/spool//perfdata.1350915913-PID-20877
>>>> deleted
>>>> 2012-10-22 16:25:44 [20877] [0] *** Timeout while processing Host:
>>>> "server1" Service: "_HOST_"
>>>> 2012-10-22 16:25:44 [20877] [0] *** process_perfdata.pl terminated on
>>>> signal ALRM
>>>> ...
>>>> #####
>>>>
>>>> Can anyone tell me where I could find the root for the problem?
>>>>
>>>> One thing I know is, that the server sometimes has a very high load and we
>>>> are planing to move some services away from this machine, but even when I
>>>> stop some resource-eating services only timeouts are showing up in the
>>>> perfdata.log
>>>>
>>>> Best regards,
>>>>
>>>> Alex
>>>> _______________________________________________
>>>> omd-users mailing list
>>>> [email protected]
>>>> http://lists.mathias-kettner.de/mailman/listinfo/omd-users
>>>
>>> _______________________________________________
>>> omd-users mailing list
>>> [email protected]
>>> http://lists.mathias-kettner.de/mailman/listinfo/omd-users
>>
>> _______________________________________________
>> omd-users mailing list
>> [email protected]
>> http://lists.mathias-kettner.de/mailman/listinfo/omd-users
>>
>
> _______________________________________________
> omd-users mailing list
> [email protected]
> http://lists.mathias-kettner.de/mailman/listinfo/omd-users
>
_______________________________________________
omd-users mailing list
[email protected]
http://lists.mathias-kettner.de/mailman/listinfo/omd-users