Después de un arranque en frío de un servidor Debian 6.0.8 (HP ProLiant), ntpd
causó estragos en el tiempo del sistema: compensación y fluctuación con respecto a los servidores de tiempo de referencia habituales y confiables que crecen sin límite. (Tenga en cuenta que un servidor gemelo idéntico no tuvo ningún problema). Después de muchos intentos fallidos de solucionar el problema ntpd
, decidí intentar reiniciar, y todo salió bien.
Para investigar el problema, encontré esta discrepancia, que podría explicar mis problemas de reloj:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
Tenga en cuenta que en el segundo último arranque (el problemático) la frecuencia de CPU detectada es un valor atípico claro. Sin el valor atípico, el error y la desviación estándar de la frecuencia detectada con respecto a la frecuencia nominal es +0.15 MHz ± 0.25 MHz. Para el arranque problemático, tengo un error de -16.4 Mhz, que es aproximadamente 100 veces mayor de lo esperado.
Mis preguntas:
¿Puede un error de este tipo hacer que la
ntp
disciplina de tiempo sea inestable / inutilizable? ¿Es esta la razón de mis problemas con el reloj?¿Es este tipo de comportamiento un síntoma de hardware flacky? ¿Debería el servidor entrar en mantenimiento hw?
Actualizar
Algunos datos útiles:
- el núcleo es 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4)
current_clocksource
estsc
- el error
lpj
es (por supuesto) consistente con el error en la frecuencia de la CPU
Algunas líneas de contexto para lo anterior grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
fuente
ntpdc -c loopinfo
nunca me dio un valor de deriva de frecuencia. Ahora, después de reiniciar, todo parece estar en orden, con un valor de deriva estable ... Por cierto, su sugerencia es correcta, estoy monitoreandolog/loopstats
el comportamiento anormal.