Actualmente estoy usando Request Tracker ( http://www.bestpractical.com/rt )
Todos los eventos de mantenimiento obtienen un ticket asociado en la cola de "sistemas". Las notas sobre los problemas encontrados, quién hizo qué trabajo cuando, etc. se ingresan en el ticket, junto con las aprobaciones necesarias.
Por el momento, nuestras tareas recurrentes (parches trimestrales, etc.) se crean manualmente, pero podrían automatizarse con la suficiente facilidad (trabajo cron + correo electrónico).
Coordinar quién está haciendo qué trabajo es relativamente fácil para nosotros, ya que solo hay 2 personas en nuestro grupo de administración, pero a medida que ampliamos el plan es crear un boleto maestro para eventos de mantenimiento y usar boletos de niños asignados a las partes responsables para delegar el trabajo .
Las cosas diarias (comprobaciones de registros, etc.) es otro asunto: tengo todo eso dedicado a procesos automatizados:
- InterMapper vigila el estado general de los servidores (consultas SNMP que buscan alta carga, poco espacio en disco, etc.), la funcionalidad de nuestras interfaces web y otras cosas que podrían indicar problemas.
- Syslog-NG recopila registros de nuestros hosts y los alimenta a través de un conjunto de scripts que verifican la existencia de defectos obvios. Echo un vistazo a los registros de vez en cuando para comprobar la cordura de los guiones, pero no está programado regularmente.
Para el trabajo de proyectos, se elimina de la aplicación Project Management (correo electrónico y calendario integrados con la capacidad de documentar el trabajo detallado y programarlo para personas particulares).
Para mantenimiento, actualizaciones, arreglos, etc., tenemos un sistema de tickets que se integra más o menos con nuestro proceso de Gestión de cambios para manejar las solicitudes y la programación.
Para el trabajo completamente interno y el trabajo en ciclos largos (trimestral, anual, etc.):
Los recordatorios para hacer las cosas están calendarizados. Existe documentación informal / semiformal ("wiki") sobre cuál podría ser la programación general.
Existe cierta cantidad de "cómo hacerlo" y documentación de procedimiento sobre cómo llevar a cabo las tareas y es accesible para el equipo en general, pero las personas tienen sus propios "libros negros" administrativos y registros con notas y recetas.
fuente
Un sistema de monitoreo puede ayudar con estas cosas:
Documentamos cada ronda de mantenimiento mensual en un archivo de documento de Word con casillas de verificación. Cada mes guardamos el informe en una carpeta en nuestro NAS. Monitoreamos la antigüedad mínima del archivo de la carpeta. Si la antigüedad mínima del archivo es superior a 40 días, recibimos una alarma.
Una parte de nuestro mantenimiento de rutina es reiniciar servidores y dispositivos seleccionados una vez al mes. Usamos sensores de "tiempo de actividad del sistema" (SNMP / WMI) en nuestro software de monitoreo y si el tiempo de actividad es superior a 40 días recibimos una alarma.
Para las copias de seguridad, controlamos la antigüedad mínima de los archivos en la carpeta de copias de seguridad de cada servidor en nuestro NAS. Si la antigüedad mínima del archivo es superior a 10 días, recibimos una alarma.
fuente
Uso Checkpanel ( https://checkpanel.com ) para administrar mis tareas de mantenimiento recurrentes. Proporciona listas de verificación reutilizables y una interfaz fácil para registrar los resultados de cada verificación.
Después de verificar un elemento, no solo está "hecho", sino que permanece disponible para verificaciones adicionales. Cada comprobación se registra para que pueda revisar fácilmente un historial de todas las comprobaciones anteriores de un artículo, incluidos los detalles opcionales (por ejemplo, mensajes de error para comprobaciones fallidas).
Puede configurar un elemento recurrente para cada elemento para asegurarse de verificarlo al menos una vez por semana / cada 2 días / etc. Hay una vista consolidada de todos los elementos vencidos. Si lo desea, también puede recibir un correo electrónico diario con todos los artículos vencidos.
Hay una plantilla de listas de verificación de mantenimiento del servidor que puede usar como base para sus propias listas de verificación. Otras plantillas incluyen listas de verificación para aplicaciones web, WordPress y más.
Divulgación: soy el fundador de Checkpanel.
fuente