Reinicios repentinos de la máquina observados con el temporizador de vigilancia ipmiutil

1

Originalmente criado en serverfault como esta pregunta.

Tengo un servidor de producción openSUSE 11.1 2.6.34.4 Intel con un estándar ipmiutil-2.4.1 instalado.

El perro guardián es básicamente un temporizador de hardware de 90 segundos cancelado cada 60 segundos desde el espacio del usuario por un trabajo cron.

El motivo de preocupación no es el reinicio del dispositivo de vigilancia en sí, sino el fallo subyacente del servidor que lo provoca, si es que lo hace. El IMMI de vigilancia de IPMI está haciendo su trabajo para recuperar el sistema de un estado irrecuperable.

El servidor parece haberse vuelto lento / lento. Digo esto en función de las entradas de registro de aplicación / perdidas / perdidas / var / log / cron, syslog y otras.

Esto ha estado sucediendo al azar bajo pruebas de carga. La carga es básicamente el tráfico SIP a un servidor SIP. El problema no es fácilmente reproducible pero ocurre con bastante frecuencia. Tampoco es determinista con respecto al hardware, el tiempo, el tipo de carga que se está ejecutando.

Estoy al final de mi ingenio y no sé si es una mal conductor , un i / o   insecto , algo en este sentido , la aplicación SIP o alguna otra cosa.

Tengo volúmenes de informes detallados de actividad del sistema, es decir,% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, fault / s, majflt / s, pgfree / s etc. si es necesario.

Ninguno de los informes de actividad del sistema indica algo anormal (aunque no pretendo tener un ojo entrenado exactamente).

O.P
fuente

Respuestas:

1

No creo que sea una buena idea establecer un trabajo cron para esa tarea crítica. Tenga en cuenta que cron podría bloquear otras tareas antes de la ejecución de la tarea de vigilancia. como se describe aquí . A partir de lo que describe, suponiendo que el sistema no exhibió ningún comportamiento anormal distinto del reinicio, es muy probable que el trabajo cron simplemente no se ejecutó a tiempo.

Hay demonios de vigilancia independientes que puedes usar que restablecerían el temporizador cada segundo o así. Te sugiero que uses uno de ellos. Ver Perro guardián del BMC .

Dan Aloni
fuente