Tengo un nuevo sistema HP ProLiant DL360 G7 que presenta un problema difícil de reproducir. El servidor se bloquea al azar al " Poder y calibración térmica en curso ... " pantalla durante el proceso de la POST . Esto generalmente sigue a un arranque en caliente / reinicio desde el sistema operativo instalado.
El sistema se detiene indefinidamente en este punto. La emisión de un reinicio o arranque en frío a través de los controles de alimentación de la OIT 3 hace que el sistema arranque normalmente sin incidentes.
Cuando el sistema está en este estado, la interfaz de la OIT 3 es totalmente accesible y todos los indicadores de estado del sistema están bien (todos verdes). El servidor está en un centro de datos climatizado con conexiones de alimentación a PDU. La temperatura ambiente es de 64 ° F / 17 ° C. El sistema se colocó en un bucle de prueba de componentes de 24 horas antes del despliegue sin fallas.
El sistema operativo principal para este servidor es VMWare ESXi 5. Inicialmente probamos 5.0 y luego una versión 5.1. Ambos se implementaron a través de arranque PXE y kickstart. Además, estamos probando con instalaciones de Windows baremetal y Red Hat Linux.
Los sistemas HP ProLiant tienen un conjunto completo de opciones de BIOS. Hemos probado la configuración predeterminada además del perfil estático de alto rendimiento. He desactivado la pantalla de inicio y solo obtengo un cursor parpadeante en ese punto en comparación con la captura de pantalla anterior. También hemos probado algunas "mejores prácticas" de VMWare para la configuración del BIOS . Hemos visto un aviso de HP que parece describir un problema similar , pero no solucionó nuestro problema específico.
Sospechando un problema de hardware, hice que el proveedor enviara un sistema idéntico para la entrega el mismo día. El nuevo servidor era una compilación completamente idéntica con la excepción de los discos. Movimos los discos del antiguo servidor al nuevo. Experimentamos el mismo problema de arranque aleatorio en el hardware de reemplazo.
Ahora tengo ambos servidores ejecutándose en paralelo. El problema golpea al azar en botas de abrigo. Las botas frías no parecen tener el problema. Estoy investigando algunas de las configuraciones de BIOS más esotéricas, como deshabilitar Turbo Boost o deshabilitar por completo la función de calibración de potencia. Podría probar estos, pero no deberían ser necesarios.
¿Alguna idea?
--editar--
Detalles del sistema:
- DL360 G7 - 2 x CPUs X5670 Hex-Core
- 96 GB de RAM (12 x 8 GB DIMM de bajo voltaje)
- 2 discos duros SAS de 146 GB y 15 k
- 2 fuentes de alimentación redundantes de 750 W
Todo el firmware actualizado a partir del último HP Service Pack para el lanzamiento del DVD ProLiant.
Al llamar a HP y rastrear el interwebz, he visto menciones de una mala interacción de ILO 3, pero esto también sucede con el servidor en una consola física. HP también sugirió una fuente de alimentación, pero esta se encuentra en un rack de centro de datos que alimenta con éxito otros sistemas de producción.
¿Hay alguna posibilidad de que esto pueda ser una mala interacción entre los DIMM de bajo voltaje y las fuentes de alimentación de 750W? Este servidor debe ser una configuración compatible.
fuente
Respuestas:
Entonces, después de incorporar un tercer sistema a la mezcla y experimentar el mismo problema, comenzamos a cuestionar el entorno. Desenterré una copia de la Guía de solución de problemas de los servidores HP ProLiant y encontré el diagrama de flujo de problemas POST que se muestra a continuación.
Cuidadosamente siguiendo los pasos en la tabla, nos dimos cuenta de que la única constante en todos los servidores era un conmutador KVM conectado al carro de falla del centro de datos. Este era un KVM habilitado para USB de clase de consumidor. Según el nodo resaltado en el diagrama de flujo, ¿ha conocido un buen KVM? , No pude responder de manera concluyente.
Entonces, desconectamos los servidores del conmutador KVM y ejecutamos un arranque automático,
sleep 300; reboot
secuenciandorc.local
. Los servidores no tuvieron problemas con esto, independientemente del DIMM normal, los DIMM de bajo voltaje, la potencia de la fuente de alimentación, etc.Todo esto fue el resultado de una mala interacción con un conmutador KVM USB. En virtud de que esta era la consola, aseguraba que veríamos la falla si la estábamos buscando. Autocumplido ...
fuente