Re: Caida de Servidor Web
Patricio Morales escribió: Me llamó la atención esta línea: Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. La señal 15 es una señal que se usa con SIGTERM, no con SIGKILL, por lo que lo de la falta de RAM quedaría descartado. Una llamada del tipo $kill numeroproceso envía una señal SIGTERM En cambio una llamada del tipo $kill -9 numeroproceso envía una señal SIGKILL De todas formas sería interesante si pudieras enviar información del log antes del 17 de Enero, ya que no se puede determinar que es lo que está matando los procesos. Pero mi intuición me dice que no pasaría por la parte de Hardware el problema. ¿No es lo mismo que dije yo? -- Álvaro Herrera PostgreSQL Expert, http://www.2ndQuadrant.com/ World domination is proceeding according to plan(Andrew Morton)
Re: Caida de Servidor Web
Lo ultimo en cuanto a Ram no la maquina nisiquiera swapea pero igual la checare y no le tengo activado el sar tb lo hare. Eso de la falta de RAM es un mal diagnóstico, me parece a mí: cuando la máquina se queda sin RAM física y necesita liberar memoria debido al overcommit, el kernel manda señales a procesos para que se mueran y poder liberar memoria. Pero las señales que manda son SIGKILL, no SIGTERM. No hay ninguna razón para pensar que este caso está relacionado con eso. Me llamó la atención esta línea: Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. La señal 15 es una señal que se usa con SIGTERM, no con SIGKILL, por lo que lo de la falta de RAM quedaría descartado. Una llamada del tipo $kill numeroproceso envía una señal SIGTERM En cambio una llamada del tipo $kill -9 numeroproceso envía una señal SIGKILL De todas formas sería interesante si pudieras enviar información del log antes del 17 de Enero, ya que no se puede determinar que es lo que está matando los procesos. Pero mi intuición me dice que no pasaría por la parte de Hardware el problema. Saludos. --
RE: Caida de Servidor Web
Respecto de un eventual shutdown por parte de otro admin, hum no creo hay uno solo por ahi no he visto conexiones en los logs desde otra maquina y no creo sea tan maldito este tipo y tan ·$%@@, pero de todo hay en la viña del señor en todo caso eso ya lo vi en su momento mu detalladamente, fue lo primro en que pense. segundo busque info en dell y aplique una actualizacion ala bios que repara un error de acpi y unas caidas que suceden eso lo hice ayer lo dejare asi mientras tanto chequeandolo esto me viene sucediendo varios meses atras una ves al mes mas o menos pero confio en el update de la Bios lo repare, estaba muy desactualizada. Lo ultimo en cuanto a Ram no la maquina nisiquiera swapea pero igual la checare y no le tengo activado el sar tb lo hare. Cordialmente Date: Wed, 21 Jan 2015 23:45:37 -0300 From: alvhe...@alvh.no-ip.org To: linux@listas.inf.utfsm.cl Subject: Re: Caida de Servidor Web Juan Carlos Rojas Jordan escribió: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. Estás malinterpretando esta secuencia del log, creo yo. La señal 15 es SIGTERM, o sea todos estos procesos se están quejando de lo mismo. Lo que parece es que recibieron SIGTERM debido a una secuencia de shutdown desde el proceso init -- o sea alguien le dijo al servidor que se apagara, o quizás que se pusiera en runlevel 1. Creo que deberías conversar con los otros admins del sistema, o con alguien que pudo haber apretado el botón de apagado del servidor. El servidor tiene instalado CentOs 6.6 con Kernel, 2.6.32-504.3.3.el.x86_64. El log me envio lo siguiente. Jan 17 18:38:04 newcumulus init: tty (/dev/tty1) main process (2158) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty2) main process (2160) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty3) main process (2162) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty4) main process (2164) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty5) main process (2166) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty6) main process (2168) killed by TERM signal Jan 17 18:38:08 newcumulus abrtd: Got signal 15, exiting Jan 17 18:38:13 newcumulus xinetd[1680]: Exiting... Jan 17 18:38:16 newcumulus acpid: exiting Jan 17 18:38:17 newcumulus init: Disconnected from system bus Jan 17 18:38:17 newcumulus rpcbind: rpcbind terminating on signal. Restart with rpcbind -w Jan 17 18:38:18 newcumulus auditd[1289]: The audit daemon is exiting. Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.059:11637): audit_pid=0 old=1289 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.135:11638): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: Kernel logging (proc) stopped. Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. -- Álvaro Herrerahttp://www.linkedin.com/in/alvherre Investigación es lo que hago cuando no sé lo que estoy haciendo (Wernher von Braun)
Re: Caida de Servidor Web
estaria interesante si pudieras subir la parte del log posteior a lo que subiste anteriormente asi nos da alguna pista mas El 22 de enero de 2015, 10:05, Juan Carlos Rojas Jordan jcr...@hotmail.com escribió: Respecto de un eventual shutdown por parte de otro admin, hum no creo hay uno solo por ahi no he visto conexiones en los logs desde otra maquina y no creo sea tan maldito este tipo y tan ·$%@@, pero de todo hay en la viña del señor en todo caso eso ya lo vi en su momento mu detalladamente, fue lo primro en que pense. segundo busque info en dell y aplique una actualizacion ala bios que repara un error de acpi y unas caidas que suceden eso lo hice ayer lo dejare asi mientras tanto chequeandolo esto me viene sucediendo varios meses atras una ves al mes mas o menos pero confio en el update de la Bios lo repare, estaba muy desactualizada. Lo ultimo en cuanto a Ram no la maquina nisiquiera swapea pero igual la checare y no le tengo activado el sar tb lo hare. Cordialmente Date: Wed, 21 Jan 2015 23:45:37 -0300 From: alvhe...@alvh.no-ip.org To: linux@listas.inf.utfsm.cl Subject: Re: Caida de Servidor Web Juan Carlos Rojas Jordan escribió: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. Estás malinterpretando esta secuencia del log, creo yo. La señal 15 es SIGTERM, o sea todos estos procesos se están quejando de lo mismo. Lo que parece es que recibieron SIGTERM debido a una secuencia de shutdown desde el proceso init -- o sea alguien le dijo al servidor que se apagara, o quizás que se pusiera en runlevel 1. Creo que deberías conversar con los otros admins del sistema, o con alguien que pudo haber apretado el botón de apagado del servidor. El servidor tiene instalado CentOs 6.6 con Kernel, 2.6.32-504.3.3.el.x86_64. El log me envio lo siguiente. Jan 17 18:38:04 newcumulus init: tty (/dev/tty1) main process (2158) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty2) main process (2160) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty3) main process (2162) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty4) main process (2164) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty5) main process (2166) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty6) main process (2168) killed by TERM signal Jan 17 18:38:08 newcumulus abrtd: Got signal 15, exiting Jan 17 18:38:13 newcumulus xinetd[1680]: Exiting... Jan 17 18:38:16 newcumulus acpid: exiting Jan 17 18:38:17 newcumulus init: Disconnected from system bus Jan 17 18:38:17 newcumulus rpcbind: rpcbind terminating on signal. Restart with rpcbind -w Jan 17 18:38:18 newcumulus auditd[1289]: The audit daemon is exiting. Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.059:11637): audit_pid=0 old=1289 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.135:11638): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: Kernel logging (proc) stopped. Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. -- Álvaro Herrera http://www.linkedin.com/in/alvherre Investigación es lo que hago cuando no sé lo que estoy haciendo (Wernher von Braun)
Re: Caida de Servidor Web
Juan Carlos Rojas Jordan escribió: Respecto de un eventual shutdown por parte de otro admin, hum no creo hay uno solo por ahi no he visto conexiones en los logs desde otra maquina y no creo sea tan maldito este tipo y tan ·$%@@, pero de todo hay en la viña del señor en todo caso eso ya lo vi en su momento mu detalladamente, fue lo primro en que pense. ¿Has pensado en preguntarle? Muy de vez en cuando uno se topa con una persona que no miente. Cómo sabes, quizás tienes suerte. segundo busque info en dell y aplique una actualizacion ala bios que repara un error de acpi y unas caidas que suceden eso lo hice ayer lo dejare asi mientras tanto chequeandolo esto me viene sucediendo varios meses atras una ves al mes mas o menos pero confio en el update de la Bios lo repare, estaba muy desactualizada. A menos que la BIOS mande secuencias de apagado al kernel como si hubiera detectado que se apreta el botón de power, eso no suena a explicación plausible. Si ocurre en fechas fijas, quizás tienes una tarea en cron que esté apagando la máquina, o algo así. O un sistema STONITH que se dispara cuando hay fallas de red, o cuando vence un lease DHCP, etc. ¿Miraste en los varios .bash_history etc? Lo ultimo en cuanto a Ram no la maquina nisiquiera swapea pero igual la checare y no le tengo activado el sar tb lo hare. Eso de la falta de RAM es un mal diagnóstico, me parece a mí: cuando la máquina se queda sin RAM física y necesita liberar memoria debido al overcommit, el kernel manda señales a procesos para que se mueran y poder liberar memoria. Pero las señales que manda son SIGKILL, no SIGTERM. No hay ninguna razón para pensar que este caso está relacionado con eso. -- Álvaro Herrera33.5S 70.5W I personally became interested in Linux while I was dating an English major who wouldn't know an operating system if it walked up and bit him. (Val Henson)
Re: Caida de Servidor Web
edu5...@gmail.com escribió: estaria interesante si pudieras subir la parte del log posteior a lo que subiste anteriormente asi nos da alguna pista mas Yo creo que lo interesante puede ser anterior a lo que mostró antes. -- Álvaro Herrera33.5S 70.5W That sort of implies that there are Emacs keystrokes which aren't obscure. I've been using it daily for 2 years now and have yet to discover any key sequence which makes any sense.(Paul Thomas)
Re: Caida de Servidor Web
Tienes información previa al Jan 17 18:38:04? A- 2015-01-21 13:21 GMT-03:00 Angelo Paolo Guajardo Schiappacasse angelopaolo...@gmail.com: yum update rpcbind ? 2015-01-21 13:00 GMT-03:00 Juan Carlos Rojas Jordan jcr...@hotmail.com: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. El servidor tiene instalado CentOs 6.6 con Kernel, 2.6.32-504.3.3.el.x86_64. El log me envio lo siguiente. Jan 17 18:38:04 newcumulus init: tty (/dev/tty1) main process (2158) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty2) main process (2160) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty3) main process (2162) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty4) main process (2164) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty5) main process (2166) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty6) main process (2168) killed by TERM signal Jan 17 18:38:08 newcumulus abrtd: Got signal 15, exiting Jan 17 18:38:13 newcumulus xinetd[1680]: Exiting... Jan 17 18:38:16 newcumulus acpid: exiting Jan 17 18:38:17 newcumulus init: Disconnected from system bus Jan 17 18:38:17 newcumulus rpcbind: rpcbind terminating on signal. Restart with rpcbind -w Jan 17 18:38:18 newcumulus auditd[1289]: The audit daemon is exiting. Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.059:11637): audit_pid=0 old=1289 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.135:11638): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: Kernel logging (proc) stopped. Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. -- A-
Re: Caida de Servidor Web
yum update rpcbind ? 2015-01-21 13:00 GMT-03:00 Juan Carlos Rojas Jordan jcr...@hotmail.com: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. El servidor tiene instalado CentOs 6.6 con Kernel, 2.6.32-504.3.3.el.x86_64. El log me envio lo siguiente. Jan 17 18:38:04 newcumulus init: tty (/dev/tty1) main process (2158) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty2) main process (2160) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty3) main process (2162) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty4) main process (2164) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty5) main process (2166) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty6) main process (2168) killed by TERM signal Jan 17 18:38:08 newcumulus abrtd: Got signal 15, exiting Jan 17 18:38:13 newcumulus xinetd[1680]: Exiting... Jan 17 18:38:16 newcumulus acpid: exiting Jan 17 18:38:17 newcumulus init: Disconnected from system bus Jan 17 18:38:17 newcumulus rpcbind: rpcbind terminating on signal. Restart with rpcbind -w Jan 17 18:38:18 newcumulus auditd[1289]: The audit daemon is exiting. Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.059:11637): audit_pid=0 old=1289 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.135:11638): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: Kernel logging (proc) stopped. Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15.
Re: Caida de Servidor Web
Juan Carlos Rojas Jordan escribió: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. Estás malinterpretando esta secuencia del log, creo yo. La señal 15 es SIGTERM, o sea todos estos procesos se están quejando de lo mismo. Lo que parece es que recibieron SIGTERM debido a una secuencia de shutdown desde el proceso init -- o sea alguien le dijo al servidor que se apagara, o quizás que se pusiera en runlevel 1. Creo que deberías conversar con los otros admins del sistema, o con alguien que pudo haber apretado el botón de apagado del servidor. El servidor tiene instalado CentOs 6.6 con Kernel, 2.6.32-504.3.3.el.x86_64. El log me envio lo siguiente. Jan 17 18:38:04 newcumulus init: tty (/dev/tty1) main process (2158) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty2) main process (2160) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty3) main process (2162) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty4) main process (2164) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty5) main process (2166) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty6) main process (2168) killed by TERM signal Jan 17 18:38:08 newcumulus abrtd: Got signal 15, exiting Jan 17 18:38:13 newcumulus xinetd[1680]: Exiting... Jan 17 18:38:16 newcumulus acpid: exiting Jan 17 18:38:17 newcumulus init: Disconnected from system bus Jan 17 18:38:17 newcumulus rpcbind: rpcbind terminating on signal. Restart with rpcbind -w Jan 17 18:38:18 newcumulus auditd[1289]: The audit daemon is exiting. Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.059:11637): audit_pid=0 old=1289 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.135:11638): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: Kernel logging (proc) stopped. Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. -- Álvaro Herrerahttp://www.linkedin.com/in/alvherre Investigación es lo que hago cuando no sé lo que estoy haciendo (Wernher von Braun)
Re: Caida de Servidor Web
On 21 January 2015 at 13:00, Juan Carlos Rojas Jordan jcr...@hotmail.com wrote: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. Tienes logs de performance (sar) o similar? Luce como si te hubieses quedado sin ram... -- Never, never, in nothing great or small, large or petty, never give in except to convictions of honour and good sense. Never yield to force; never yield to the apparently overwhelming might of the enemy.'' Winston Churchill https://plus.google.com/+CarlosSepulveda/
Re: Caida de Servidor Web
On 21/01/15 13:00, Juan Carlos Rojas Jordan wrote: Hola Listeros, necesito alguna ayuda respecto de un problema que tengo con un servidor dell PE Dell 1900, se me ha caido ,de acuerdo a lo que he visto puede ser un problemas de hardware o bien algun problema del kernel. Agradecere cualquier ayuda al respecto. de un poco antes de esta matanza de procesos tienes? El servidor tiene instalado CentOs 6.6 con Kernel, 2.6.32-504.3.3.el.x86_64. El log me envio lo siguiente. Jan 17 18:38:04 newcumulus init: tty (/dev/tty1) main process (2158) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty2) main process (2160) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty3) main process (2162) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty4) main process (2164) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty5) main process (2166) killed by TERM signal Jan 17 18:38:04 newcumulus init: tty (/dev/tty6) main process (2168) killed by TERM signal Jan 17 18:38:08 newcumulus abrtd: Got signal 15, exiting Jan 17 18:38:13 newcumulus xinetd[1680]: Exiting... Jan 17 18:38:16 newcumulus acpid: exiting Jan 17 18:38:17 newcumulus init: Disconnected from system bus Jan 17 18:38:17 newcumulus rpcbind: rpcbind terminating on signal. Restart with rpcbind -w Jan 17 18:38:18 newcumulus auditd[1289]: The audit daemon is exiting. Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.059:11637): audit_pid=0 old=1289 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: type=1305 audit(1421530698.135:11638): audit_enabled=0 old=1 auid=4294967295 ses=4294967295 res=1 Jan 17 18:38:18 newcumulus kernel: Kernel logging (proc) stopped. Jan 17 18:38:18 newcumulus rsyslogd: [origin software=rsyslogd swVersion=5.8.10 x-pid=1319 x-info=http://www.rsyslog.com;] exiting on signal 15. . --- Enrique Herrera Noya 09-92303151 -- Certificaciones: Red Hat Certified Engineer RHCE Nº100223072 (RH6.0) Red Hat Certified System Administrato RHCSA Nº100223072 (RH6.0) Red Hat Certified Technician (RHCT) Nº605010753835478 (RH5.0) Novell Certified Linux Professional CLP 10