Me ha sucedido ya dos veces en muy pocos días que mi servidor se cae por completo, lo que significa http, ssh, ftp, dns, smtp, básicamente TODOS los servicios dejan de responder, como si el servidor se hubiera apagado, excepto que todavía responde al ping , que es lo que más me sorprende.
Tengo algunas secuencias de comandos php que causan una gran carga (CPU y memoria) en el servidor en ráfagas cortas, utilizadas por un pequeño grupo de usuarios, pero generalmente el servidor "sobrevive" perfectamente a estas ráfagas, y cuando se cae nunca coinciden con tales picos en el uso (no digo que no se pueda relacionar, pero no sucede solo después de eso).
No te estoy pidiendo que mágicamente puedas decirme la causa última de estos accidentes, mi pregunta es: ¿hay un solo proceso cuya muerte pueda hacer que todos estos servicios se caigan simultáneamente? Lo curioso es que todos los servicios de red se caen, excepto el ping. Si el servidor tuviera el 100% de la CPU consumida por algún proceso, tampoco respondería al ping. Si apache se bloqueó debido a (por ejemplo) un script php roto, eso afectaría solo http, no ssh y dns ... etc.
Mi sistema operativo es Cent OS 5.6
Lo más importante, después de reiniciar el servidor, ¿qué registros del sistema debo mirar? / var / log / messages no revela nada sospechoso.
fuente
malloc()
1 GB de RAM no signifique realmente que lo va a usar, por lo que el administrador de memoria realiza un seguimiento de la cantidad de memoria que su programa cree tener y cuánta memoria El programa realmente ha utilizado, y en realidad funciona bien, la mayoría de las veces. Al menos, hasta que más de un programa realmente quiera usar todo el 1GB que cree que tiene.Por lo general, es un problema de E / S o subsistema de disco. Muchas veces, esto se combinará con un promedio de carga del sistema extremadamente alto. Por ejemplo, el sistema detallado en el gráfico a continuación dejó de responder (aunque era pingable) cuando un script se ejecutó mal, bloqueó un montón de archivos y la carga aumentó a 36 ... en un sistema de 4 CPU.
Los servicios que se ejecutan en RAM y no requieren acceso al disco continúan ejecutándose ... Por lo tanto, la pila de red (ping) está activa, pero los otros servicios se bloquean cuando se requiere acceso al disco ... SSH cuando se hace referencia a una clave o búsqueda de contraseña necesaria. SMTP tiende a apagarse cuando el promedio de carga alcanza 30 o más ...
Cuando el sistema está en este estado, intente un control remoto
nmap
contra la IP del servidor para ver qué pasa.Su registro probablemente no funcione si se trata de un problema de disco o almacenamiento ...
¿Puedes describir la configuración del hardware? ¿Es esta una máquina virtual? ¿Cuál es el diseño de almacenamiento?
Más que iniciar sesión, desea ver si puede graficar el rendimiento del sistema y comprender cuándo sucede esto. Vea si esto se correlaciona con una actividad específica.
fuente