Estrategias de monitoreo de infraestructura

12

Últimamente, he estado enfrentando algún tiempo de inactividad en algunos de los sitios de Drupal que he implementado. Me gustaría abordar el problema de forma proactiva, en lugar de reaccionar a esos tiempos de inactividad reiniciando los servicios o el servidor en sí. He leído sobre herramientas de monitoreo como nagios, munin, cacti, etc. para monitorear la salud de su servidor / infraestructura, pero realmente no he probado una en producción. Trato con Drupal casi el 99% de las veces, y me gustaría encontrar sugerencias para la supervisión de nivel de servidor y la supervisión de nivel de Drupal (código de aplicación).

Básicamente, me gustaría recibir una notificación cuando la carga del servidor sea alta, posiblemente señalando al culpable (o la víctima), para que pueda tomar decisiones informadas. También me gustaría saber qué utilizan las personas para el monitoreo de nivel de Drupal (como el correo electrónico) cuando hay un error / advertencia de PHP. (¿Qué sucede cuando el servidor de correo electrónico está inactivo?)

Dipen
fuente

Respuestas:

6

Si desea monitorear varios sitios de Drupal desde el mismo lugar con alertas, etc., puedo decir que no es el único. Está comenzando a ser un nicho de negocios, ahora lleno por:

Ambos son enfoques comerciales de SaaS, con opciones limitadas gratuitas para probar el servicio.

También existe la opción de monitoreo Open Source Zabbix con su módulo Drupal http://drupal.org/project/zabbix , pero luego debe configurar y construir el servidor.

Todas estas opciones tienen sus módulos de Drupal para enviar información específica del servidor y de Drupal al servidor del monitor.

ACTUALIZAR. Munin también tiene un módulo Drupal específico , con una rama 2.x basada en Drush.

corbacho
fuente
Probé una nueva reliquia con drupal y debo decir que es muy extensa en el buen sentido la mayoría de las veces (xhprof más o menos es un buen sustituto de las trazas de transacciones en NR, pero la recopilación de datos es indespensable). También he estado escuchando sobre drupal.org la adopción de nagios para el monitoreo. Gracias por su respuesta. Esperaré un par de días más por un par más antes de seleccionarlo.
Dipen
5

Independientemente de cuál use, lo único que definitivamente sugeriría es que, a menos que tenga un personal de TI a tiempo completo, no mantenga su propia supervisión: confíe en un servicio que sea completamente independiente de sus servidores. Una cosa es tener un servidor público inactivo, otra es tenerlo inactivo y no saberlo porque su servidor de monitoreo también está inactivo. La mayoría de los servicios de monitoreo incluirán todos los requisitos que ha enumerado de inmediato.

Pero a riesgo de que esto se convierta en una pregunta de recomendación de compra, el servicio que uso para los requisitos que ha enumerado es Pingdom :

  • Te dice si un sitio está activo (por supuesto)
  • Mide cuánto tiempo lleva responder
  • Mide la capacidad de respuesta y la disponibilidad en cualquier puerto TCP / UDP personalizado
  • Comprobación de disponibilidad de correo electrónico
  • Permite solicitudes HTTP personalizadas, lo que le permite probar diferentes aspectos de su aplicación
  • Informes extensos
  • Monitoreo mundial, y agregan una docena más de sitios de monitoreo cada pocos meses
kiamlaluno
fuente
Ya estoy usando site24x7.com y también pingdom (para un sitio diff) para alertas, quería un monitoreo que me informara de manera proactiva sobre el uso de recursos o posibles problemas e integre estrechamente con el entorno del servidor. Gracias por tu respuesta.
Dipen
2

Estas son algunas sugerencias agnósticas de Drupal:

  • Are My Sites Up enviará periódicamente un ping a sus servidores y le enviará un correo electrónico (o SMS si obtiene el paquete no gratuito) si su sitio está fuera de línea o no responde.
  • Load Impact es otra gran herramienta gratuita que puede hacer una prueba de esfuerzo de su sitio web para que pueda saber cuándo exactamente comienza a fallar.

En cuanto a la aplicación Drupal en sí, sugeriría usar Xdebug + Webgrind o XHProf para perfilar el código y vigilar esta pregunta: la mejor manera de comparar el rendimiento de la pila Drupal

Alex Weber
fuente
Gracias por informarme sobre el impacto de la carga, he estado usando jmeter pero luego es más trabajo configurar sus planes de prueba, etc. Espero que el impacto de la carga pueda lidiar con simulaciones autenticadas de drupal.
Dipen
1

Me gusta pingdom para sitios pequeños / medianos porque es útil: te dice que algo está mal desde el punto de vista del cliente, lo cual es procesable. Cosas como el promedio de carga en realidad no significan nada a menos que tenga una pila muy mal configurada (que no debería) o que Digg / Reddit lo esté machacando (en cuyo caso no hay nada que pueda hacer de todos modos, debería tener preparado).

Del blog de Ted Dziuba:

Llamo a este tipo de alertas Cool Story, Bro para abreviar. Estos son bits de información que no indican ningún tipo de estado del problema y no provocan ninguna acción. Las historias interesantes son cosas para las que ni siquiera deberías tener alertas. Pierden tu tiempo y te vuelven paranoico. Las alertas de Cool Story Bro son cosas como:

  • El promedio de carga en un servidor es superior a 20.
  • Una cola de trabajos tiene más de X unidades de trabajo. Felicidades, idiota, tu cola está haciendo exactamente lo que se supone que debe hacer.
  • Alguna métrica es mayor que una media empíricamente determinada. Me ofende personalmente una mierda como esta.

Lea la publicación del blog, es muy gracioso.

Entendu
fuente
0

Estoy usando check_drupal para monitorear varios sitios de drupal. Este es un complemento de nagios que no requiere ningún cambio de código en un sitio de drupal. El único requisito es que drush debe estar presente en el servidor.

lockdoc
fuente