Documentar una interrupción para una revisión post mortem

14

La semana pasada tuvimos una interrupción bastante grave que afectó a varios servicios que nos dejaron fuera de nuestro SLA con los clientes. Ahora que todo se ha resuelto, estoy llevando a cabo una revisión post mortem.

A partir de esta revisión, me gustaría elaborar un documento interno que describa la interrupción, sus efectos, nuestra respuesta y la resolución. Quiero proponer una forma bastante estándar para su futura reutilización. He incluido mis pensamientos a continuación, pero ¿qué otros elementos deberían incluirse? Si se tratara de un incidente relacionado con la seguridad, ¿qué agregaría?

  • Resumen Resumen a nivel ejecutivo del evento.
  • Servicios afectados
  • Impacto ¿Cuál fue el impacto en nuestros usuarios y SLA? ¿Hubo un costo en dólares, transacciones perdidas, clientes perdidos, etc.?
  • Duración de la interrupción Para cada servicio afectado si hubo variaciones
  • Causa Incluyendo causas primarias y secundarias
  • Resolución
  • Calendario de notificaciones de eventos , contacto con proveedores externos, notificaciones de clientes, respuestas, etc.
  • Problemas con nuestra respuesta ¿Las cosas no salieron según lo planeado con nuestra respuesta a la interrupción? ¿Personas correctas notificadas? ¿Los vendedores cumplieron con sus obligaciones contraídas?
  • Medidas preventivas a tomar ¿Cómo evitamos que vuelva a ocurrir esta interrupción o reduzcamos su impacto?
  • Método de detección ¿Qué tan bien detectamos esta interrupción y cómo mejoramos la detección en el futuro?
  • Cambios a realizar en futuras respuestas de interrupción

Intente mantener las publicaciones en un solo elemento y explicación, y esta publicación se puede actualizar con las respuestas más votadas.

Doug Luxem
fuente

Respuestas:

6

Aunque podría estar cubierto en las medidas preventivas a tomar , recomendaría tener una sección de método de detección que podría usar para observar cuáles eran los síntomas verdaderos y cómo podría detectar el problema (más rápido) si vuelve a ocurrir, idealmente usando la automatización.

JayC
fuente
Añadido a la wiki
Doug Luxem
2

Se ve bien. Solo agregaría lo siguiente:

Efectos / Consecuencias : ¿Cuál es la consecuencia de la interrupción? ¿Quién se vio afectado, qué SLA fueron violados (si hubo alguno), hubo algún efecto negativo?

marca
fuente
1

Los servicios afectados y la duración de la interrupción solo le dicen parte de cuán grave fue la interrupción. También desea saber cuál fue el impacto en el negocio.

Impacto : ¿Qué efecto tuvo esto en los usuarios y cómo se percibió? ¿Cuánto dinero nos costó esto (por falta de SLA, pedidos perdidos, etc.)?

usuario8996
fuente
Me gusta la distinción entre los servicios afectados y el impacto comercial, pero lo categorizaría como "Impacto comercial" y no solo impacto (para establecer una distinción entre los servicios afectados y la información de duración). Además de que va a atraer la mirada de gestión que necesitan estar al tanto del impacto en el negocio, si no todos los detalles técnicos de lo que se vieron afectados los servicios ...
Milner
1

Lanzamiento público y lanzamiento interno

Esto es más algo que la gerencia debe decidir, pero de todos modos puede incluir lo que se debe divulgar a los clientes al respecto o su recomendación. Además, de cualquier manera, obtenga la aprobación de la administración sobre la redacción exacta de lo que se dará a conocer a los clientes antes de publicar cualquier cosa.

El lanzamiento público debe incluirse en esto para que cualquier persona de la empresa sepa lo que puede decirles a los clientes.

SpaceManSpiff
fuente
Creo que este documento interno podría usarse para generar una versión externa para los clientes. Exactamente lo que se les diría a los clientes dependería de nuestros ejecutivos y marketing / comunicaciones.
Doug Luxem