He realizado algunas investigaciones sobre nagios, opennms y zenoss, pero no estoy seguro de haber encontrado lo que estaba buscando.
La principal fuerza impulsora para mí en este momento es poder monitorear las copias de seguridad. Esto incluye mysql, mssql y, finalmente, algunas copias de seguridad del sistema de archivos.
Tenemos una herramienta que envuelve el proceso de copia de seguridad para estos diferentes sistemas y recopila estadísticas. Entonces, artículos como:
- cantidad de bases de datos respaldadas
- tamaño del archivo de respaldo db
- tamaño del archivo de respaldo db comprimido
- hora de hacer una copia de seguridad
- hora de archivo zip
Quiero poder A) tener notificaciones si los trabajos no se ejecutan de acuerdo con el cronograma B) poder establecer umbrales en las estadísticas que desencadenarían notificaciones C) Quiero poder generar tendencias y graficar las estadísticas
Estoy planeando enviar esta información a la aplicación de monitoreo a través de un POST HTTP. O bien, la aplicación de monitoreo también podría extraerlo de un archivo de registro.
Sin embargo, tendremos otros procesos con otras estáticas "arbitrarias" (desde la perspectiva del sistema de monitoreo) que querrán monitorear y generar tendencias, por lo que la flexibilidad es muy importante.
La herramienta o las herramientas también deberían poder hacer un seguimiento general y tendencias de las interfaces de red, la carga del servidor, etc. Una vez que tengamos implementado el monitoreo de respaldo, también querremos incluir esos elementos.
Gracias.
Seguimiento :
He decidido probar lo siguiente en el orden dado:
- Zabbix: parecía más una "ventanilla única" que las otras y era fácil de instalar en Ubuntu Lucid RC
- opsview
- Nagios w / nagvis, pnp4nagios, nagiosgraph
- cactus con plugin npc
- Munin: un poco asustado de la simplicidad, pero esto puede ser una bendición a largo plazo
Volveré a publicar una vez que haya tomado una decisión, puede pasar un tiempo hasta que eso suceda.
fuente
Esto debería ser bastante fácil de configurar con Zabbix.
establecer umbrales personalizados (y muy potentes) es fácil: puede escribir cualquier expresión que desee, por lo que es posible algo como "notifíqueme si más de 3 de estos 5 servidores no tuvieron una copia de seguridad exitosa". También puede utilizar 6 niveles de gravedad y escalamientos diferentes para lograr notificaciones y alertas flexibles.
zabbix tiene capacidades de almacenamiento y visualización de datos agrupados: todos los datos se almacenan en una base de datos, y para graficar una sola métrica no necesita ninguna configuración, solo obtiene un gráfico "gratis". para almacenamiento a largo plazo y tendencias se calculan promedios de una hora.
En cuanto a obtener sus datos sobre copias de seguridad en zabbix, existen múltiples posibilidades. puede leerlo desde archivos, puede lanzar comandos personalizados, puede empujarlo desde la máquina monitoreada usando la utilidad de línea de comandos zabbix_sender ... y puede haber algunos enfoques más posibles.
extender es fácil: cualquier comando personalizado que devuelva datos se puede usar para recopilar, almacenar y visualizar esos datos.
por supuesto, es posible el monitoreo general de sistemas operativos, aplicaciones, dispositivos snmp e ipmi, etc.
fuente
ejecución
Las copias de seguridad se orquestan con Backupninja . Lo uso solo como un contenedor para mis scripts de bash, para tener un único registro de copia de seguridad. cada script comienza con
así que recibo un error en los registros cada vez que falla alguno de los comandos [por ejemplo, mysqldump o rsync].
todas las copias de seguridad terminan en el repositorio rdiff, así que tengo n días de incrementos.
Todas las copias de seguridad se transmiten mediante rsync al servidor de almacenamiento central.
En el servidor de almacenamiento, todas las copias de seguridad se verifican diariamente y, después de una verificación exitosa de los datos en el disco local, se copian en una unidad USB externa.
verificación
nagios supervisa backupninja.log en todos los servidores. compruebo si contienen solo mensajes DEBUG e INFO. cualquier otra cosa activa la alerta.
cada copia de seguridad 'toca' un archivo de prueba, cuya presencia y frescura se monitorea en el servidor central de repositorios de copias de seguridad con nagios.
Además, los volcados de SQL más críticos se comprueban por su tamaño [no solo por frescura] y su integridad [por ejemplo, al final de los volcados de MySQL, espero una nueva marca de tiempo en
Todos los archivos rdiff se verifican diariamente antes de que los datos se sincronicen con la unidad USB y luego nuevamente después de sincronizarse. así que incluso si se interrumpe la transferencia nocturna, tendré un repositorio constante solo en el disco USB. El resultado de la comprobación se registra en el archivo cuyo contenido y frescura se comprueba por nagios.
los discos usb se rotan semanalmente y se almacenan sin conexión, por si acaso. Esto puede ser excesivo para grandes cantidades de datos, pero funciona bien para ~ 300 GB de archivos / volcados que cambian lentamente.
tendencias
Utilizo un plugin munin personalizado simple para trazar el tamaño de diff / data para cada repositorio rdiff.
el tiempo que lleva ejecutar puede verificarse en los registros de backupninja, pero por ahora no me molesto.
fuente
nagios puede hacer tendencias, pero necesita generar perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) en su complemento. Si usa un pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start , todo se graficará por usted.
Descubrí que usar opsview http://www.opsview.org/ es mucho más fácil que configurar nagios y pnp4nagios. Especialmente si eres el único administrador experto de Linux en el trabajo. Opsview es nagios con un gran webui que permite casi todas las acciones desde el navegador web. Debido a que son nagios, puedes usar todos los complementos de nagios que has estado usando en el pasado. Gran herramienta
fuente
Nagios para alertas y Cacti para gráficos más algunos scripts de shell o perl harán exactamente lo que desea. Con la combinación de ellos, podría hacer casi cualquier cosa, dependiendo de la cantidad de esfuerzo que esté dispuesto a hacer.
fuente
Recomiendo OpenNMS . El paquete es completamente de código abierto, soportado activamente y mejorado regularmente. Como referencia, encontré en su información de configuración wiki para monitorear Symantec Backup Exec .
Desde su sitio web ...
Divulgación: no tengo ningún interés comercial aquí, pero el propietario de The OpenNMS Group , la "organización de servicios comerciales, capacitación y soporte" mencionado anteriormente, es un amigo mío.
fuente
Esto podría hacerse fácilmente con Circonus ( http://circonus.com/ ). Rutinariamente importamos métricas como esta con el DTD Resmon XML.
fuente