La mejor herramienta para monitorear copias de seguridad, etc. y tendencias en estadísticas a partir de esos datos [cerrado]

9

He realizado algunas investigaciones sobre nagios, opennms y zenoss, pero no estoy seguro de haber encontrado lo que estaba buscando.

La principal fuerza impulsora para mí en este momento es poder monitorear las copias de seguridad. Esto incluye mysql, mssql y, finalmente, algunas copias de seguridad del sistema de archivos.

Tenemos una herramienta que envuelve el proceso de copia de seguridad para estos diferentes sistemas y recopila estadísticas. Entonces, artículos como:

  • cantidad de bases de datos respaldadas
  • tamaño del archivo de respaldo db
  • tamaño del archivo de respaldo db comprimido
  • hora de hacer una copia de seguridad
  • hora de archivo zip

Quiero poder A) tener notificaciones si los trabajos no se ejecutan de acuerdo con el cronograma B) poder establecer umbrales en las estadísticas que desencadenarían notificaciones C) Quiero poder generar tendencias y graficar las estadísticas

Estoy planeando enviar esta información a la aplicación de monitoreo a través de un POST HTTP. O bien, la aplicación de monitoreo también podría extraerlo de un archivo de registro.

Sin embargo, tendremos otros procesos con otras estáticas "arbitrarias" (desde la perspectiva del sistema de monitoreo) que querrán monitorear y generar tendencias, por lo que la flexibilidad es muy importante.

La herramienta o las herramientas también deberían poder hacer un seguimiento general y tendencias de las interfaces de red, la carga del servidor, etc. Una vez que tengamos implementado el monitoreo de respaldo, también querremos incluir esos elementos.

Gracias.

Seguimiento :

He decidido probar lo siguiente en el orden dado:

  • Zabbix: parecía más una "ventanilla única" que las otras y era fácil de instalar en Ubuntu Lucid RC
  • opsview
  • Nagios w / nagvis, pnp4nagios, nagiosgraph
  • cactus con plugin npc
  • Munin: un poco asustado de la simplicidad, pero esto puede ser una bendición a largo plazo

Volveré a publicar una vez que haya tomado una decisión, puede pasar un tiempo hasta que eso suceda.

Randy Syring
fuente

Respuestas:

4

En lugar de escribir su propia solución de monitoreo, le recomiendo que use una herramienta existente para que toda la funcionalidad básica de monitoreo y alerta ya esté implementada. Si elige Nagios, obtendrá la supervisión básica de los recursos del servidor y de la red de forma gratuita, y los siguientes complementos deberían proporcionarle la mayor parte del resto de lo que necesita:

check_file_ages_in_dirs le dirá si existen los archivos de respaldo; Aquí hay una publicación de blog que escribí con algunos ejemplos básicos.

check_file puede monitorear el tamaño y el contenido del archivo (usando expresiones regulares), por lo que puede enviar sus estadísticas de respaldo a un archivo y monitorearlas.

Lo único que no obtendrá de Nagios es tendencias y gráficos; Recomiendo mirar Munin para eso, ya que es simple de configurar y, como Nagios, tiene montones de complementos contribuidos.

gareth_bowles
fuente
Solo para aclarar, no estaría escribiendo mi propia herramienta de monitoreo. La pregunta es obtener recomendaciones para herramientas de monitoreo / tendencias que se integrarán con el marco de copia de seguridad / ejecución de script que he construido.
Randy Syring
4

Esto debería ser bastante fácil de configurar con Zabbix.

establecer umbrales personalizados (y muy potentes) es fácil: puede escribir cualquier expresión que desee, por lo que es posible algo como "notifíqueme si más de 3 de estos 5 servidores no tuvieron una copia de seguridad exitosa". También puede utilizar 6 niveles de gravedad y escalamientos diferentes para lograr notificaciones y alertas flexibles.

zabbix tiene capacidades de almacenamiento y visualización de datos agrupados: todos los datos se almacenan en una base de datos, y para graficar una sola métrica no necesita ninguna configuración, solo obtiene un gráfico "gratis". para almacenamiento a largo plazo y tendencias se calculan promedios de una hora.

En cuanto a obtener sus datos sobre copias de seguridad en zabbix, existen múltiples posibilidades. puede leerlo desde archivos, puede lanzar comandos personalizados, puede empujarlo desde la máquina monitoreada usando la utilidad de línea de comandos zabbix_sender ... y puede haber algunos enfoques más posibles.

extender es fácil: cualquier comando personalizado que devuelva datos se puede usar para recopilar, almacenar y visualizar esos datos.

por supuesto, es posible el monitoreo general de sistemas operativos, aplicaciones, dispositivos snmp e ipmi, etc.

Richlv
fuente
1

ejecución

Las copias de seguridad se orquestan con Backupninja . Lo uso solo como un contenedor para mis scripts de bash, para tener un único registro de copia de seguridad. cada script comienza con

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

así que recibo un error en los registros cada vez que falla alguno de los comandos [por ejemplo, mysqldump o rsync].

todas las copias de seguridad terminan en el repositorio rdiff, así que tengo n días de incrementos.

Todas las copias de seguridad se transmiten mediante rsync al servidor de almacenamiento central.

En el servidor de almacenamiento, todas las copias de seguridad se verifican diariamente y, después de una verificación exitosa de los datos en el disco local, se copian en una unidad USB externa.

verificación

nagios supervisa backupninja.log en todos los servidores. compruebo si contienen solo mensajes DEBUG e INFO. cualquier otra cosa activa la alerta.

cada copia de seguridad 'toca' un archivo de prueba, cuya presencia y frescura se monitorea en el servidor central de repositorios de copias de seguridad con nagios.

Además, los volcados de SQL más críticos se comprueban por su tamaño [no solo por frescura] y su integridad [por ejemplo, al final de los volcados de MySQL, espero una nueva marca de tiempo en

- Descarga completada el 22/04/2010 23:21:02

Todos los archivos rdiff se verifican diariamente antes de que los datos se sincronicen con la unidad USB y luego nuevamente después de sincronizarse. así que incluso si se interrumpe la transferencia nocturna, tendré un repositorio constante solo en el disco USB. El resultado de la comprobación se registra en el archivo cuyo contenido y frescura se comprueba por nagios.

los discos usb se rotan semanalmente y se almacenan sin conexión, por si acaso. Esto puede ser excesivo para grandes cantidades de datos, pero funciona bien para ~ 300 GB de archivos / volcados que cambian lentamente.

tendencias

Utilizo un plugin munin personalizado simple para trazar el tamaño de diff / data para cada repositorio rdiff.

el tiempo que lleva ejecutar puede verificarse en los registros de backupninja, pero por ahora no me molesto.

pQd
fuente
Gracias por la respuesta. Ya tengo un marco que maneja las copias de seguridad en ejecución (y otras tareas), que recopila estadísticas, por lo que backupninja sería excesivo. Nagios parece ser un consenso y luego munin o cactus a la tendencia.
Randy Syring
1

nagios puede hacer tendencias, pero necesita generar perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) en su complemento. Si usa un pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start , todo se graficará por usted.

Descubrí que usar opsview http://www.opsview.org/ es mucho más fácil que configurar nagios y pnp4nagios. Especialmente si eres el único administrador experto de Linux en el trabajo. Opsview es nagios con un gran webui que permite casi todas las acciones desde el navegador web. Debido a que son nagios, puedes usar todos los complementos de nagios que has estado usando en el pasado. Gran herramienta

natxo asenjo
fuente
Gracias por el comentario, creo que había descartado opsview por alguna razón, pero según su recomendación, puedo terminar intentándolo antes de saltar a nagios propiamente dicho.
Randy Syring
0

Nagios para alertas y Cacti para gráficos más algunos scripts de shell o perl harán exactamente lo que desea. Con la combinación de ellos, podría hacer casi cualquier cosa, dependiendo de la cantidad de esfuerzo que esté dispuesto a hacer.

solefald
fuente
¿Crees que sería mejor "enviar" estadísticas a nagios a través de HTTP o dejar que extraiga estadísticas de los archivos de registro?
Randy Syring
0

Recomiendo OpenNMS . El paquete es completamente de código abierto, soportado activamente y mejorado regularmente. Como referencia, encontré en su información de configuración wiki para monitorear Symantec Backup Exec .

Desde su sitio web ...

OpenNMS es la primera plataforma de gestión de redes de grado empresarial del mundo desarrollada bajo el modelo de código abierto. Consiste en un proyecto de código abierto apoyado por la comunidad, así como una organización de servicios comerciales, capacitación y soporte.

Divulgación: no tengo ningún interés comercial aquí, pero el propietario de The OpenNMS Group , la "organización de servicios comerciales, capacitación y soporte" mencionado anteriormente, es un amigo mío.

tomjedrz
fuente
0

Esto podría hacerse fácilmente con Circonus ( http://circonus.com/ ). Rutinariamente importamos métricas como esta con el DTD Resmon XML.

ofuscación
fuente