Realizar análisis de causa raíz

9

Quiero aprender más sobre cómo realizar análisis de causa raíz. La mayoría de las veces, nuestro departamento le dice al usuario que intente reiniciar (su sistema Windows XP), lo que en realidad "soluciona" una buena cantidad de problemas. Cuando tengo prisa (y a veces el pago por hora contribuye a esto), podría tratar de encontrar una solución para resolver el problema rápidamente en lugar de realizar un análisis de causa raíz.

La mayoría de las veces busco en los archivos de registro o en el visor de eventos esta información. Algunas veces usaré las herramientas Sysinternals u ocasionalmente ejecutaré un sniffer de paquetes. Probablemente no use los programas Sysinternals tanto como debería. También sería útil tener una idea específica de cómo usar qué herramientas de estas herramientas, cuándo y por qué.

Sé que esta es una pregunta abierta, pero ¿podría explicar brevemente su metodología, herramientas, etc. que utiliza? Parece que muchos administradores en SF utilizan un proceso más profundo sobre el que me gustaría obtener más información. Si esto ayuda a reducir la pregunta, me interesarían más las herramientas, consejos, trucos, etc. relevantes para los servidores y clientes de Windows dentro de un entorno AD.

revs jftuga
fuente

Respuestas:

5

Determinar la causa raíz de un problema depende del problema: su instinto inicial de mirar los archivos de registro / herramientas de sistema / sniffers de paquetes es generalmente correcto.
Agregaría ejecutar la herramienta de eliminación de software malintencionado de MS y un buen programa AV en sistemas Windows (y asegurarme de que no tengan algo como CyberDefender u otro AV-troyano-malware.

La gente de Stack Exchange es partidaria del método "5 Whys" ( http://en.wikipedia.org/wiki/5_Whys , también este pequeño PDF que lo muestra en acción ). Es una herramienta bastante valiosa para hacer análisis de causa raíz.


Más allá de eso, pintaré dos amplias categorías y algunas de las preguntas que suelo hacer / cosas que reviso:

Comportamiento misterioso no relacionado con la red,
por ejemplo, "Word sigue fallando en mí"

Preguntas básicas para hacer:

  1. ¿Qué cambió?
    (No tome "nada" como respuesta, es la primera mentira. Nuevo software, parches, etc., todos cuentan).
  2. ¿Qué estabas haciendo cuando tuviste el problema?
    (Intente extraer tantos detalles como sea posible aquí; en mi ejemplo anterior, "presioné la tecla de acceso rápido para insertar iniciales y el programa se bloqueó")
  3. ¿Alguna vez funcionó antes?
    (Si es así, comience a mirar cosas del (1) anterior)
  4. ¿Puedes reproducir el problema en tu sistema?
    (Si es así, es una buena señal: una llamada de soporte técnico al proveedor puede ayudar. De lo contrario, tendrá que mirar el sistema del usuario para el resto de estas preguntas).
  5. ¿Qué tiene de diferente el entorno del usuario que su entorno?
  6. ¿Es sospechoso el hardware del usuario? (Ejecute una prueba de memoria, busque errores SMART desde el disco duro, etc.)
  7. Si ha llegado hasta aquí (verificación de hardware, verificación de software, sin virus, sin malware), visite al usuario por un día. Observar sus hábitos de trabajo.
    Mi empresa una vez tuvo un bloqueo misterioso del sistema relacionado con hacer clic con el mouse en una frecuencia específica (Todavía no sabemos por qué, pero tuvimos que ver cómo lo hacía un usuario y practicar durante un día para poder reproducirnos es confiable)

Problemas relacionados con la red.

Mucho de esto es similar, pero con alguna orientación más específica.

  1. ¿Qué cambió?
    (Sí, siempre comienzas allí)
  2. ¿Qué está roto?
    • ¿Se puede llegar a las páginas web? ¿Es solo uno que está abajo? Si es así ¿Está abajo para todos o solo para usted ?
    • ¿Puedes hacer ping en Internet por nombre?
      ¿Qué tal por IP? ¿Hasta dónde llega el traceroute?
  3. Cuando esta roto?
    • ¿Siempre a la misma hora del día?
    • ¿Por un breve período cada N días?
    • Aleatoriamente (¿es REALMENTE aleatorio? Trazarlo en un calendario ...)
  4. ¿Hay algo extraño en el sitio remoto?
    • Mire DNS: si es un round robin, podría haber una rotura en el lado remoto
    • ¿Estamos hablando del otro extremo de una VPN? ¿Qué pasa con la VPN (registros)?
  5. ¿Hay algo extraño en el sitio local?
    • Verifique su firewall local
    • Verifique cualquier "software de filtrado"
  6. Consulte con su ISP para ver si hay algún problema conocido
  7. Verifique sitios como http://www.internetpulse.net/ para conocer los problemas conocidos de toda la red
  8. Echa un vistazo a la máquina del usuario
    (configuración de TCP, etc. - Por lo general, no es el problema, pero a veces).
voretaq7
fuente
1

Además de las excelentes respuestas hasta ahora, agregaría:

  • Identifique la fecha / hora de inicio del problema. Esto puede parecer obvio, pero he visto demasiados problemas donde esto no fue documentado y más tarde se hicieron suposiciones incorrectas. Esto se correlaciona bien con el paso "lo que cambió".

  • ¿El problema es reproducible o intermitente? Esto es crítico, ya que los síntomas reproducibles son mucho más fáciles y rápidos de resolver que los que son intermitentes. Si es reproducible, asegúrese de documentar los pasos.

  • Identifica los síntomas. Tenga en cuenta que distinguimos entre "síntoma", que es una manifestación de la causa raíz, y el problema real / causa raíz.

    1. ¿Hay alguna otra actividad que pueda reproducir el síntoma?
    2. ¿Qué otros síntomas hay?
    3. Si el problema es intermitente, ¿podemos identificar una actividad que hará que ocurra?
    4. ¿En qué circunstancias podemos evitar que ocurra el síntoma? ¿El problema ocurre solo cuando se inicia sesión con una cuenta de red, pero funciona bien si se inicia sesión localmente? ¿El problema ocurre cuando se registra como un usuario normal, pero funciona bien si se inicia sesión con privilegios elevados? ¿Ocurre solo en un sistema, pero otro sistema que debería ser similar no presenta el síntoma?
  • Localice el problema en un probable componente funcional defectuoso. Si hay un error en una aplicación web, ¿está en el código de la aplicación, el servidor web, el sistema operativo que aloja el servidor web, la red o el extremo remoto? Es mejor adivinar en este punto para que los recursos se centren en la causa probable, así que asegúrese de que otros sepan que esto es teoría / conjetura.

  • Cuestione sus suposiciones e intente recopilar datos empíricos para respaldar las suposiciones y conclusiones. Es bastante malo decirle a alguien que no hay un problema con x, y más tarde se descubre que sí existe. Por lo general, cuando hay una solución incorrecta, podría haber datos para respaldar una solución correcta.

Greg Askew
fuente