¿Cómo se monitorea un servidor de monitoreo?

14

Entonces ejecutamos Groundworks (con Nagios) en CentOS para monitorear nuestros diversos servidores y procesos. Lo tengo configurado para enviar automáticamente correos electrónicos y mensajes de texto SMS cuando las cosas alcanzan un estado de ADVERTENCIA o CRÍTICO. Normalmente esto funciona perfectamente. Sin embargo, dos veces hemos tenido problemas con Postfix en ese servidor donde Postfix decide dejar de enviar correos electrónicos. El tiempo más reciente duró 4 días porque ninguno de nosotros lo notó.

Eso me lleva a una pregunta importante: ¿cómo se supone que debo monitorear mi servidor de monitoreo?

verduras orgánicas
fuente
55
Quis custodiet ipsos custodes?
James L
Je Juvenal Muy bien jugado.
organicveggie
¿Quién mira a los vigilantes? : D
Florent Courtay
1
@organicveggie, Un servidor de monitoreo también es un servidor ... ¿Qué problemas enfrentaría al usar un servidor de monitoreo para monitorear un servidor de monitoreo?
Pacerier

Respuestas:

12

Con un segundo servidor de monitoreo, por supuesto. El segundo puede ser mucho más simple, ya que todo lo que necesita hacer es monitorear el primero. Y, por supuesto, debe ser monitoreado por el sistema de monitoreo principal.

Si su grupo es parte de una organización más grande con infraestructuras de TI separadas, es posible que pueda hacer arreglos para que el servicio de monitoreo de otro grupo vigile el suyo.

También puede asegurarse de que el servidor envíe un mensaje de "está bien" todos los días y tener el hábito de buscarlo. (Eso solo es efectivo si no estás abrumado con mensajes de rutina, por supuesto).

mattdm
fuente
14

Otras personas sugieren enviar mensajes regulares diciendo que las cosas están bien, pero personalmente no estoy de acuerdo con eso. El monitoreo debe ser silencioso a menos que haya un problema, y ​​nunca debe confiar en que un usuario se dé cuenta de que algo está mal, como "Oh, no he recibido ese correo electrónico diario en unos pocos días". Especialmente si tiene más de una persona respondiendo a las alertas, cada una puede pensar que la otra ya ha eliminado el mensaje diario "Estoy bien".

Tenemos un servicio externo (de los cuales hay cientos, pero usamos gusanos ) para hacer verificaciones HTTP de nuestro servidor de monitoreo para asegurarnos de que esté funcionando y pueda llegar a Internet. Esa es nuestra principal preocupación para monitorearlo. Luego, nuestro servidor Nagios supervisa todos los servidores Nagios de nuestros clientes.

Pero, traes un buen punto. Probablemente deberíamos agregar una URL HTTP que verifique la cola de postfix y si muestra un número inusual de mensajes, lo que probablemente significa que tiene alguno en la cola, entonces genera una alerta. Otra opción sería utilizar diferentes métodos para las alertas, por ejemplo, un agente de entrega de SMS que no sea SMTP y SMTP que utilizamos actualmente.

Sin embargo, en nuestro caso, no recuerdo que alguna vez haya tenido que morir el servidor de correo. Por supuesto, todo lo que se usa para el servidor de correo es enviar alertas de Nagios, por lo que la configuración es muy simple y casi nunca cambia.

Sean Reifschneider
fuente
2
Los mensajes regulares de OK no son tan útiles: no puede condicionar de manera confiable a una persona para que realice una acción en ausencia de un estímulo.
Tim Williscroft
@Tim: Lo siento, pero la "ausencia de un estímulo" no describe la situación en la que no se recibe un correo electrónico anticipado. En tal caso, creo que sería "estimulado" para investigar por qué el mensaje no llegó. Pero tal vez solo soy yo. :)
Steven lunes
1
Creo que estoy escribiendo usando términos psicológicos que no significan lo que crees que significan. La psicología del comportamiento y la psicología de la aviación tienen mucho que contar a los ingenieros de sistemas. El campo se desarrolló en gran medida en la Segunda Guerra Mundial para lograr que tripulaciones de entre 18 y 20 años volaran aviones de última generación sin estrellarse, y aún les quedara atención para sus verdaderas tareas militares. Es por eso que los aviones tienen una luz maestra de precaución, no una luz de "todo está bien". TLDR (no creo que esa palabra signifique lo que crees que significa)
Tim Williscroft
1
Creo firmemente que los sistemas no deberían hacer ruido a menos que haya algo que necesite atención de un humano. Tenemos una atención limitada, y las computadoras pueden abrumarnos fácilmente con pequeñas señales como "¡Estoy vivo!". Además, las cosas que pasan y que no indican problemas ponen a las personas en la mente de ignorar las cosas. Trabajo muy duro para asegurarme de que cuando algo llega a ser humano, es algo que realmente necesitan ver. Trabajo con alguien que recibe todo tipo de registros todos los días que revisa. Por supuesto, está tan ocupado que no puede salir a almorzar ...
Sean Reifschneider
1
Estoy de acuerdo en que los servicios no deberían enviar demasiados mensajes o las personas comienzan a ignorarlos rápidamente. Sin embargo, si el sistema de monitoreo está configurado correctamente, no debería recibir muchos mensajes. Por supuesto, tenemos una política sobre el reconocimiento de alertas de Groundworks / Nagios, que detiene efectivamente los mensajes por un período de tiempo. Si se trata de una interrupción a largo plazo, deshabilitamos la supervisión del sistema o servicio. Como resultado, un mensaje diario "Estoy vivo" es bastante razonable.
organicveggie
5

Obviamente, su postfix también debe ser monitoreado, pero ese es otro tema;)

Utilizo el complemento de corrector Nagios para Firefox , siempre se ejecuta en una barra de estado en cualquier computadora que uso regularmente.

Además, tengo un script personalizado en el host externo que hace ping al host nagios y envía SMS si no responde a los pings.

Hasta ahora (más de 5 años) funcionó bien (toco madera).

Aleksandar Ivanisevic
fuente
2

Para monitorear el monitoreo del servidor (nagios en nuestro caso), el plan gratuito o básico de Pingdom o alertfox funciona muy bien.

BXAtWork
fuente
Buenas sugerencias Pero en este caso, nuestro servidor de monitoreo no es accesible fuera del firewall. Entonces Pingdom y Alertfox realmente no funcionan para nosotros.
organicveggie
1

Primero: deje que envíe mensajes "Estoy vivo" una o dos veces al día. En segundo lugar, ejecuto una máquina vieja solo para este propósito, que tiene otro módem GSM, un pequeño UPS, etc. y una conexión dedicada (directa) al servidor de monitoreo primario. Este también ayuda con el punto tres: asegúrese de verificar regularmente el estado de sus sistemas de monitoreo. El pequeño sistema de monitoreo auxiliar muestra la página de estado del sistema primario en mi oficina todo el tiempo.

Sven
fuente
1

Si su servidor de Monitoreo es accesible desde Internet, debe ser monitoreado por un proveedor externo (por ejemplo, websitepulse et. Al.).

Texas
fuente