Identificar qué causó el reinicio del servidor

8

Tengo un HP ProLiant DL380p Gen8 que ejecuta VMWare ESXi 5.5 . Se ha reiniciado a intervalos aparentemente aleatorios durante las últimas 24 horas. Solo se está ejecutando una única VM, e incluso si la apago, el host se reiniciará. El servidor no se está quedando sin memoria o espacio en disco, y por lo que puedo decir, no se está sobrecalentando. He intentado buscar en los archivos de registro, pero hay mucho que ver.

¿Cuáles son los pasos más importantes para diagnosticar este problema? ?

Sé que esta es una pregunta muy amplia. Me complace proporcionar archivos de registro si es necesario para que esto sea más específico para mi situación.

nachito
fuente

Respuestas:

9

Aqui hay algunas sugerencias.

  • ¿Su OIT está conectada y configurada? Le dirá exactamente qué está sucediendo con el sistema. Revise el registro de ILO4.

  • Ver el registro IML del sistema (disponible a través de la pestaña "hardware" de ILO o vSphere)

  • ¿Hay algún indicador o mensaje de error en la pantalla durante el bloqueo o en la POST?

  • ¿Está utilizando la instalación específica de HP de ESXi (incluye controladores y herramientas adicionales)

  • ¿Qué versión y número de compilación de ESXi está ejecutando?

  • Si la máquina virtual que está ejecutando es un invitado de Windows 2012 o 2008, es posible que se encuentre con un error del controlador NIC .

  • Verifique sus conexiones de alimentación. ¿Tienes dos fuentes de alimentación? Vuelva a colocar los cables de alimentación uno a la vez.

  • Mire la matriz de LED de System Insight en la parte frontal del servidor para determinar si hay un problema de salud interno.

ingrese la descripción de la imagen aquí

ewwhite
fuente
2
Y LLAME AL VENDEDOR PARA APOYAR, también. Puede y debe pasar algún tiempo investigándose a sí mismo, pero si este es un servidor importante, debe estar bajo un acuerdo de soporte.
mfinni
No había configurado la OIT, muchas gracias por la sugerencia. Una vez que se configuró, verifiqué el registro y encontré esto System Overheating (Temperature Sensor 1, Location Ambient, Temperature 46C). Lo arreglaré de inmediato.
nachito
Esto significa que su sala de servidores o entorno es demasiado cálido. Esto también provocaría una luz ROJA en el LED de temperatura en la imagen de arriba. Dependiendo de cuándo implementó este servidor, es posible que también desee ejecutar actualizaciones de firmware en el sistema.
ewwhite
Creo que lo que está sucediendo es que el escape de otro estante está demasiado cerca de la entrada de esta máquina, ya que la habitación en sí es un 72F genial. Cuando vi la máquina mientras se reiniciaba, vi el flash OverTemp durante una fracción de segundo. No me sorprende que nunca haya visto eso antes, si parpadeas en el momento equivocado, te lo pierdes por completo
nachito
3
@nachito espero que sepas que la OIT y el servidor puede enviar alertas de salud, al igual que esta condición de temperatura ...
ewwhite