HP ProLiant DL360 G7 se cuelga en la pantalla "Calibración térmica y de energía"

41

Tengo un nuevo sistema HP ProLiant DL360 G7 que presenta un problema difícil de reproducir. El servidor se bloquea al azar al " Poder y calibración térmica en curso ... " pantalla durante el proceso de la POST . Esto generalmente sigue a un arranque en caliente / reinicio desde el sistema operativo instalado.

ingrese la descripción de la imagen aquí

El sistema se detiene indefinidamente en este punto. La emisión de un reinicio o arranque en frío a través de los controles de alimentación de la OIT 3 hace que el sistema arranque normalmente sin incidentes.

Cuando el sistema está en este estado, la interfaz de la OIT 3 es totalmente accesible y todos los indicadores de estado del sistema están bien (todos verdes). El servidor está en un centro de datos climatizado con conexiones de alimentación a PDU. La temperatura ambiente es de 64 ° F / 17 ° C. El sistema se colocó en un bucle de prueba de componentes de 24 horas antes del despliegue sin fallas.

El sistema operativo principal para este servidor es VMWare ESXi 5. Inicialmente probamos 5.0 y luego una versión 5.1. Ambos se implementaron a través de arranque PXE y kickstart. Además, estamos probando con instalaciones de Windows baremetal y Red Hat Linux.

Los sistemas HP ProLiant tienen un conjunto completo de opciones de BIOS. Hemos probado la configuración predeterminada además del perfil estático de alto rendimiento. He desactivado la pantalla de inicio y solo obtengo un cursor parpadeante en ese punto en comparación con la captura de pantalla anterior. También hemos probado algunas "mejores prácticas" de VMWare para la configuración del BIOS . Hemos visto un aviso de HP que parece describir un problema similar , pero no solucionó nuestro problema específico.

Sospechando un problema de hardware, hice que el proveedor enviara un sistema idéntico para la entrega el mismo día. El nuevo servidor era una compilación completamente idéntica con la excepción de los discos. Movimos los discos del antiguo servidor al nuevo. Experimentamos el mismo problema de arranque aleatorio en el hardware de reemplazo.

Ahora tengo ambos servidores ejecutándose en paralelo. El problema golpea al azar en botas de abrigo. Las botas frías no parecen tener el problema. Estoy investigando algunas de las configuraciones de BIOS más esotéricas, como deshabilitar Turbo Boost o deshabilitar por completo la función de calibración de potencia. Podría probar estos, pero no deberían ser necesarios.

¿Alguna idea?

--editar--

Detalles del sistema:

  • DL360 G7 - 2 x CPUs X5670 Hex-Core
  • 96 GB de RAM (12 x 8 GB DIMM de bajo voltaje)
  • 2 discos duros SAS de 146 GB y 15 k
  • 2 fuentes de alimentación redundantes de 750 W

Todo el firmware actualizado a partir del último HP Service Pack para el lanzamiento del DVD ProLiant.

Al llamar a HP y rastrear el interwebz, he visto menciones de una mala interacción de ILO 3, pero esto también sucede con el servidor en una consola física. HP también sugirió una fuente de alimentación, pero esta se encuentra en un rack de centro de datos que alimenta con éxito otros sistemas de producción.

¿Hay alguna posibilidad de que esto pueda ser una mala interacción entre los DIMM de bajo voltaje y las fuentes de alimentación de 750W? Este servidor debe ser una configuración compatible.

ewwhite
fuente
2
¿Alguna forma de eliminar los discos como una posible causa? ¿Hay alguna posibilidad de que pueda probar con algunos discos SAS o SATA alternativos?
ErnieTheGeek
Sí, probado con un conjunto de discos bien conocidos en el segundo sistema. Están corriendo en paralelo.
ewwhite
1
La única vez que he visto esto fue en un sistema (también un DL360 G7) en el que estaba tratando de usar una tarjeta que no era de HP para proporcionar almacenamiento. Cuando tenía la tarjeta SmartArray y esta otra allí, lo hizo. Cuando saqué cualquiera, pasó. Este no es tu problema, pero paso lo que me encontré.
sysadmin1138
1
¿Posiblemente algo relacionado con la red? Intenta duplicar sin estar conectado a la red.
ErnieTheGeek
1
@TheCleaner Desactivar Dynamic Power Capping no es una opción en los servidores G7. Fue presentado para la serie Gen8 ProLiant.
Ewwhite

Respuestas:

43

Entonces, después de incorporar un tercer sistema a la mezcla y experimentar el mismo problema, comenzamos a cuestionar el entorno. Desenterré una copia de la Guía de solución de problemas de los servidores HP ProLiant y encontré el diagrama de flujo de problemas POST que se muestra a continuación.

ingrese la descripción de la imagen aquí

Cuidadosamente siguiendo los pasos en la tabla, nos dimos cuenta de que la única constante en todos los servidores era un conmutador KVM conectado al carro de falla del centro de datos. Este era un KVM habilitado para USB de clase de consumidor. Según el nodo resaltado en el diagrama de flujo, ¿ha conocido un buen KVM? , No pude responder de manera concluyente.

Entonces, desconectamos los servidores del conmutador KVM y ejecutamos un arranque automático, sleep 300; rebootsecuenciando rc.local. Los servidores no tuvieron problemas con esto, independientemente del DIMM normal, los DIMM de bajo voltaje, la potencia de la fuente de alimentación, etc.

Todo esto fue el resultado de una mala interacción con un conmutador KVM USB. En virtud de que esta era la consola, aseguraba que veríamos la falla si la estábamos buscando. Autocumplido ...

ewwhite
fuente
2
Wow, esa es una buena! Me alegra que hayas descubierto esto.
nedm
77
Santo cuervo +1 a preguntas y respuestas. Buen trabajo; Probablemente lo habría pasado por alto. "Conocido bien"? Por supuesto que se sabe bien, está funcionando, ¿no?
mfinni
¡¡¡Muchas gracias!!! Definitivamente fue el KVM. Simplemente desconecte el video y conecte el monitor directamente y el servidor volverá a funcionar sin problemas. Después de cargar el sistema operativo, volví a enchufar el KVM. Creo que el problema fue causado cuando accidentalmente toqué los cables en la parte posterior del servidor. El sistema se detuvo y solo reaccionó a este consejo.
1
¿Alguna idea de cómo un KVM podría causar esto?
TheLQ
@TheLQ Un dispositivo KVM de nivel de consumidor barato fue la causa aquí. También puede haber habido un problema con el teclado.
ewwhite