Originalmente criado en serverfault como esta pregunta.
Tengo un servidor de producción openSUSE 11.1 2.6.34.4 Intel con un estándar ipmiutil-2.4.1 instalado.
El perro guardián es básicamente un temporizador de hardware de 90 segundos cancelado cada 60 segundos desde el espacio del usuario por un trabajo cron.
El motivo de preocupación no es el reinicio del dispositivo de vigilancia en sí, sino el fallo subyacente del servidor que lo provoca, si es que lo hace. El IMMI de vigilancia de IPMI está haciendo su trabajo para recuperar el sistema de un estado irrecuperable.
El servidor parece haberse vuelto lento / lento. Digo esto en función de las entradas de registro de aplicación / perdidas / perdidas / var / log / cron, syslog y otras.
Esto ha estado sucediendo al azar bajo pruebas de carga. La carga es básicamente el tráfico SIP a un servidor SIP. El problema no es fácilmente reproducible pero ocurre con bastante frecuencia. Tampoco es determinista con respecto al hardware, el tiempo, el tipo de carga que se está ejecutando.
Estoy al final de mi ingenio y no sé si es una mal conductor , un i / o insecto , algo en este sentido , la aplicación SIP o alguna otra cosa.
Tengo volúmenes de informes detallados de actividad del sistema, es decir,% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, fault / s, majflt / s, pgfree / s etc. si es necesario.
Ninguno de los informes de actividad del sistema indica algo anormal (aunque no pretendo tener un ojo entrenado exactamente).