Entonces ejecutamos Groundworks (con Nagios) en CentOS para monitorear nuestros diversos servidores y procesos. Lo tengo configurado para enviar automáticamente correos electrónicos y mensajes de texto SMS cuando las cosas alcanzan un estado de ADVERTENCIA o CRÍTICO. Normalmente esto funciona perfectamente. Sin embargo, dos veces hemos tenido problemas con Postfix en ese servidor donde Postfix decide dejar de enviar correos electrónicos. El tiempo más reciente duró 4 días porque ninguno de nosotros lo notó.
Eso me lleva a una pregunta importante: ¿cómo se supone que debo monitorear mi servidor de monitoreo?
Respuestas:
Con un segundo servidor de monitoreo, por supuesto. El segundo puede ser mucho más simple, ya que todo lo que necesita hacer es monitorear el primero. Y, por supuesto, debe ser monitoreado por el sistema de monitoreo principal.
Si su grupo es parte de una organización más grande con infraestructuras de TI separadas, es posible que pueda hacer arreglos para que el servicio de monitoreo de otro grupo vigile el suyo.
También puede asegurarse de que el servidor envíe un mensaje de "está bien" todos los días y tener el hábito de buscarlo. (Eso solo es efectivo si no estás abrumado con mensajes de rutina, por supuesto).
fuente
Otras personas sugieren enviar mensajes regulares diciendo que las cosas están bien, pero personalmente no estoy de acuerdo con eso. El monitoreo debe ser silencioso a menos que haya un problema, y nunca debe confiar en que un usuario se dé cuenta de que algo está mal, como "Oh, no he recibido ese correo electrónico diario en unos pocos días". Especialmente si tiene más de una persona respondiendo a las alertas, cada una puede pensar que la otra ya ha eliminado el mensaje diario "Estoy bien".
Tenemos un servicio externo (de los cuales hay cientos, pero usamos gusanos ) para hacer verificaciones HTTP de nuestro servidor de monitoreo para asegurarnos de que esté funcionando y pueda llegar a Internet. Esa es nuestra principal preocupación para monitorearlo. Luego, nuestro servidor Nagios supervisa todos los servidores Nagios de nuestros clientes.
Pero, traes un buen punto. Probablemente deberíamos agregar una URL HTTP que verifique la cola de postfix y si muestra un número inusual de mensajes, lo que probablemente significa que tiene alguno en la cola, entonces genera una alerta. Otra opción sería utilizar diferentes métodos para las alertas, por ejemplo, un agente de entrega de SMS que no sea SMTP y SMTP que utilizamos actualmente.
Sin embargo, en nuestro caso, no recuerdo que alguna vez haya tenido que morir el servidor de correo. Por supuesto, todo lo que se usa para el servidor de correo es enviar alertas de Nagios, por lo que la configuración es muy simple y casi nunca cambia.
fuente
Obviamente, su postfix también debe ser monitoreado, pero ese es otro tema;)
Utilizo el complemento de corrector Nagios para Firefox , siempre se ejecuta en una barra de estado en cualquier computadora que uso regularmente.
Además, tengo un script personalizado en el host externo que hace ping al host nagios y envía SMS si no responde a los pings.
Hasta ahora (más de 5 años) funcionó bien (toco madera).
fuente
Para monitorear el monitoreo del servidor (nagios en nuestro caso), el plan gratuito o básico de Pingdom o alertfox funciona muy bien.
fuente
Primero: deje que envíe mensajes "Estoy vivo" una o dos veces al día. En segundo lugar, ejecuto una máquina vieja solo para este propósito, que tiene otro módem GSM, un pequeño UPS, etc. y una conexión dedicada (directa) al servidor de monitoreo primario. Este también ayuda con el punto tres: asegúrese de verificar regularmente el estado de sus sistemas de monitoreo. El pequeño sistema de monitoreo auxiliar muestra la página de estado del sistema primario en mi oficina todo el tiempo.
fuente
Si su servidor de Monitoreo es accesible desde Internet, debe ser monitoreado por un proveedor externo (por ejemplo, websitepulse et. Al.).
fuente