Servidor de producción de supervisión [cerrado]

18

Tenemos 3 servidores dedicados, divididos en varios VPS usando openVZ. Estamos usando munin para monitorear el VPS con los sitios de producción, y monitorear alguno de los VPS para asegurarnos de que reinicie el servicio cuando falla.

La cuestión es que necesitamos una forma mucho mejor de monitorear todos nuestros servidores, ya que tenemos hasta 14 VPS, nos gustaría tener un centro central donde pudiéramos ver no solo los datos recopilados por munin, sino también algunas estadísticas adicionales. en las redes y actuaciones de nuestros servicios.

Algunos de nuestros requisitos:
- Notificación de SMS en caso de falla (posibilidad de configurar cierta verificación personalizada)
- Analizador de registro para apache error_log y algunos otros.
- Debe ser central (es decir, un servidor y varios nodos que recopilan los datos).
- No necesita ser fácil de instalar pero fácil de mantener.
- Necesito ser libre

Me han señalado nagios y splunk, ¿qué te parece? Gracias,

Adam Benayoun
fuente

Respuestas:

17

Tengo una configuración similar, excepto con Xen en su lugar. He estado muy feliz con una combinación de:

  • Nagios para alertas (usando PNP para algunos gráficos lite, y Nagviz para un panel de estado de servicio)
  • Ganglios para gráficos históricos de sistemas.
  • OSSEC como HIDS e igualmente importante como recopilador para el registro centralizado
    • nota al margen: hay un complemento de Splunk para OSSEC que integra muy bien estas dos herramientas , aunque estoy esperando que lo transfieran a Splunk v4.
  • Splunk Por último, una vez que se migren algunos de los complementos de Splunk, planeamos usar Splunk con algún prefiltrado de registros (para evitar pasar por encima del límite de ediciones gratuitas)

Espero que compartir nuestra configuración de monitoreo te ayude :-)

Aquí hay algunos enlaces útiles:

http://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-1/index.html

https://www.ibm.com/developerworks/linux/library/l-ganglia-nagios-2/

http://www.ossec.net/main/splunk-ossec-integration

actualizar:

Olvidé mencionar que también utilizamos el diseño de configuración de Matt Simmons Nagios, que se encuentra aquí http://www.standalone-sysadmin.com/blog/2009/07/nagios-config/

Este diseño hizo que nuestra configuración de Nagios fuera sensata y mucho más fácil de mantener (¡Gracias Matt!)

servidor de fallas
fuente
2
+1 para OSSEC + splunk. Ellos trabajan muy bien juntos.
sucuri
5

He tenido un gran éxito con Zabbix , satisface todos tus puntos en un solo paquete.

texto alternativo
(fuente: zabbix.com )

La parte más difícil será obtener la supervisión del registro de apache, pero Zabbix es extensible, por lo que puede usar LogWatch o algún otro script perl para obtener datos por usted.

Dave Drager
fuente
2

Me gusta OpManager, y es gratis hasta cierto número de nodos. Hace todo lo anterior, y es bastante fácil de instalar y mantener.

PolloLecheBomba
fuente
1

Nagios debería ser una buena opción. En primer lugar, es modular y satisface prácticamente todas sus expectativas. Además, recibió algunos buenos premios .

EDITAR: No te olvides de verificar esta respuesta .

guardaespaldas
fuente