Lo estamos utilizando para más de 7 GB de datos por día, pero pagamos por eso. Mucho. Creo que obtenemos un pequeño descuento académico, pero sobre todo logramos justificar el gasto del dinero porque satisfizo a los auditores acerca de tener a alguien / algo mirando nuestros registros.
Nosotros también utilizamos Nagios. Hemos configurado nagios con algunas búsquedas guardadas que llaman scripts que generan alertas de nagios o crean tickets de RT . Entonces, por ejemplo, más de X fallas de inicio de sesión en una ventana de tiempo de 5 minutos (en todos los servidores) generarán una alerta. Ese es el tipo de cosas que Nagios no puede hacer por sí solo.
Anteriormente estábamos usando SEC para generar ese tipo de alertas, pero no funcionó tan bien y alguien todavía tenía que intentar usar grep en un archivo de 20GB de vez en cuando.
No estoy seguro de que ya tengamos alertas nagios generadas; Hemos cambiado la mayoría, si no todo, de generar tickets RT. El modelo de alerta de nagios realmente no funciona bien para cosas basadas en el análisis de registros, es mejor en cosas con un estado que puede ser bueno o malo, no un evento discreto que deba investigarse.
EDITAR:
Sí, realmente nos hace la vida mucho más fácil. Es sustancialmente mejor que tratar de atravesar registros. Tenemos cajas de Windows, Linux y Solaris que le envían registros.
¿Mágicamente encuentra exactamente lo que quieres, como implican algunos de los videos? No, tiene algunas limitaciones y es posible que tenga que hacer un poco de configuración para que maneje bien tipos específicos de registros. Y las búsquedas excesivamente "interesantes" pueden requerir leer los documentos y luego esperar unos minutos mientras el servidor splunk se agita. Pero, en serio, es genial. Por lo que he visto, realmente no hay nada más en su liga.
He trabajado con Splunk y Nagios y sirven dos diferencias distintas.
Splunk hace que la búsqueda a través de registros sea mucho más simple y fácil de hacer. Tener búsquedas guardadas para problemas comunes puede ser invaluable para identificar problemas. Tengo 2 servidores Splunk en diferentes ubicaciones, ambos están utilizando la edición gratuita ya que el precio estaba fuera de rango y la cantidad indexada diaria no es suficiente para requerir comprar más.
Nagios, por otro lado, es una gran plataforma de monitoreo activo. Tengo una plataforma Nagios distribuida en 5 servidores que monitorea múltiples ubicaciones geográficas. Es muy diferente a Splunk, que monitorea los archivos de registro, Nagios puede tener complementos de verificación de servicio escritos para monitorear casi cualquier cosa de forma activa y permitirle ser notificado de los problemas para que pueda resolverlos.
Creo que los dos juntos ofrecen una imagen mucho mejor y ayudan a mantener una red. Especialmente si es un equipo versus un esfuerzo individual. Todos los involucrados pueden ver la misma imagen.
fuente
Solo es gratuito hasta 500 MB / día de procesamiento de registros. Lo probé e incluso si te quedas por debajo de 500 MB / día, descubrí que muchas de las funciones más "avanzadas" requieren una licencia real. También requiere muchos recursos de hardware para funcionar adecuadamente.
Sé de una compañía que lo usa a gran escala, pero también cuesta una cantidad muy grande de dinero (las licencias de gama baja son de muchos miles de dólares).
También hace cosas diferentes a las de Nagios. Splunk parece mejor para rastrear tendencias o buscar peculiaridades en datos a largo plazo y Nagios es mejor para poder reaccionar de inmediato.
fuente
La edición Enterprise es muy costosa, que es la versión que usarías en un entorno a gran escala. Esta es la razón por la que no lo hemos usado.
fuente
Splunk en realidad no analiza los datos de registro, lo que hace que sea difícil o imposible crear informes que abarquen sistemas con diferentes formatos de registro. También hace que sea imposible hacer una correlación real ya que no hay una taxonomía consistente con la que correlacionarse.
fuente
He probado Splunk y he encontrado que es muy útil para las búsquedas de ADHOC. Sin embargo, he usado LogLogic ahora durante varios años como MSSP porque es una solución de dispositivo que está sintonizada para manejar hasta 75,000 MPS, admite una arquitectura distribuida, proporciona integridad de archivo de suma de comprobación MD5 incorporada (para análisis forense) y tiene muchas informes de índice, expresiones regulares y filtros de búsqueda booleanos preconstruidos para la mayoría de las fuentes de registro.
fuente