¿Cómo soluciono los problemas cuando no tengo idea de por dónde empezar?

40

Estoy buscando sugerencias, consejos y respuestas sobre cómo comenzar a solucionar problemas cuando:

  1. El problema es intermitente.
  2. El problema podría estar literalmente en cualquier parte: sistema operativo; software de fuente libre; mis propios desarrollos de software; software comprado; migas en el teclado; la combinación específica de software que estoy ejecutando actualmente; El demonio de Maxwell; los pequeños hombres azules que realmente manejan la máquina se han puesto en huelga; etc.
  3. Tengo experiencia solo en algunas de las áreas que son candidatos potenciales para la causa del problema.

El problema específico que tengo se detalla a continuación como ejemplo, pero no estoy buscando respuestas a mi problema actual, sino más bien dónde y cómo comenzar a abordar tales problemas.

Actualmente encuentro un problema con mi nueva máquina. En algunas ocasiones la máquina se ha congelado; no acepta pulsaciones de teclas, clics del mouse ni nada, excepto el interruptor de encendido / apagado. Invariablemente, he estado simplemente navegando por la web; He tenido algunas (<= 6 otras aplicaciones) ejecutándose. Ninguna de estas aplicaciones es importante; y representan una combinación de programas comerciales y programas de código abierto, típicamente migrados de Unix de alguna variedad.

Mi máquina es una computadora portátil Windows 7 I7 quad core.

EDITAR:

Aunque dije que la descripción real del problema era solo un ejemplo, algunos de los comentarios se concentran en resolver este problema. Desafortunadamente, como era solo un ejemplo, la información dada es correcta pero no completa. Para evitar que la gente pierda su tiempo intentando, de forma remota, ayudar con el problema real, estoy dando otra información sobre mi configuración. Como dije originalmente, no estoy buscando respuestas a este problema específico.

Mi máquina es una computadora portátil de alta potencia; es mi máquina principal se utiliza para el desarrollo y redacción técnica, comunicaciones - correo electrónico, web, FTP, etc., y para edición e indexación de fotos. Un conjunto riguroso y extenso de programas de prueba de hardware, que incluye pruebas de CPU, múltiples pruebas de memoria y pruebas en todos los demás componentes, se ejecuta al menos una vez al mes. También se ejecuta al menos mensualmente un análisis completo de virus; un escaneo completo de spyware; una limpieza de disco; y una desfragmentación de disco.

El disco contiene aproximadamente 3 * 10 ^ 6 archivos; el uso del disco es de 300 Gb, dejando 150 Gb libres. La memoria es de 8 Gb. Si bien la máquina puede calentarse un poco cuando estoy ejecutando un complemento completo de las principales herramientas de desarrollo, he encontrado el problema solo cuando utilizo la máquina muy ligeramente: navegación web más Textpad más Graphviz más una base de datos Firebird más un navegador de base de datos liviano (Flame Robin ) En estas circunstancias, incluso el ventilador no está ligeramente caliente. No he realizado cambios en el software, el sistema operativo o el hardware durante el período en que me encontré con el problema. Se han producido una serie de actualizaciones automáticas: Microsoft, Adobe y Lenovo principalmente, pero no exclusivamente.

Este fondo pone en contexto (espero) mis razones para hacer esta pregunta de la manera que lo hice. Ahora voy a comenzar a investigar los diversos registros mencionados en las respuestas como un primer paso para tratar de reducir el campo de investigación. Y voy a intentar un ejercicio una de las características sugeridas en las respuestas que he recibido hasta ahora, paciencia, en mi investigación.

Chris Walton
fuente
66
+1 Porque esta pregunta puede ser útil para que la vincule en el futuro.
Tamara Wijsman
2
A veces, antes de lanzarse a un enfoque de resolución de problemas metódico y completo, debe intentar un barrido de fruta común y corriente: ejecute un análisis completo de spyware, busque en el registro de Windows apagados inesperados y vea qué problemas (si alguno) precedieron, verifique la situación del espacio en disco, ejecute check disk, proporcione a Autorysuns de Sysinternal un escaneo rápido en busca de software desconocido / sospechoso. Tenga un conjunto simple de herramientas para ejecutar que puede identificar rápidamente una gran variedad de problemas de hardware y software. Si no encuentran nada, ha perdido poco tiempo y puede comenzar un proceso más completo.
Alain
1
Además, siga el blog de Mark para ver ejemplos de cómo los problemas molestos se resuelven con Sysinternals.
Tamara Wijsman
1
Buena suerte en la solución de problemas, sugeriría crear una nueva pregunta si desea más comentarios para mantener las cosas organizadas ...
Tamara Wijsman

Respuestas:

42

Ten una mejor idea.

No vas a ganar una batalla sin suficiente información de campo.

  1. Describa su problema en detalle para que tenga una buena idea de él, quién sabe que solo sucede una vez.

  2. Rastree en el tiempo lo que sucedió antes y junto con el problema, tanto usted como su computadora.

  3. Piense en las posibles causas porque a veces puede ser algo que no es obvio.

  4. Obtenga más información cada vez que no tenga idea de lo que está sucediendo, esto podría abarcar desde Eventos , Herramientas SysInternals , Análisis de rendimiento , Depuración y cualquier otra herramienta en su experiencia .

  5. Pon a prueba tus suposiciones para asegurarte de que tus pensamientos no filtren la causa.

Divide y conquistaras.

Porque así es como los militares derrotan a su oponente incluso cuando son superados en número.

Elimine las posibles causas, o tendrá un problema para realizar un seguimiento del problema. De esta manera, se acercará cada vez más a la causa raíz del problema, le permite resolver el problema mucho más fácilmente.

Por ejemplo, con hardware , desconecte y elimine todo lo que no necesite para solucionar su problema. De esta manera, puede desconectar el componente que causa el problema. Y luego nuevamente se trata de insertar la mitad de los componentes, verificar si se repite y repetir la división hasta que tenga el componente defectuoso ...

Probar algo en otra computadora, si está disponible, también es un buen beneficio para resolver el problema.

Por ejemplo, con el software , reiniciar en modo seguro, deshabilitar las entradas de inicio también ayuda. Esto también se aplica a habilitar / deshabilitar la configuración, probar la configuración predeterminada, etc.

Pongámoslo a prueba.

Actualmente encuentro un problema con mi nueva máquina. En algunas ocasiones la máquina se ha congelado; no acepta pulsaciones de teclas, clics del mouse ni nada, excepto el interruptor de encendido / apagado. Invariablemente, he estado simplemente navegando por la web; He tenido algunas (<= 6 otras aplicaciones) ejecutándose. Ninguna de estas aplicaciones es importante; y representan una combinación de programas comerciales y programas de código abierto, típicamente migrados de Unix de alguna variedad.

  1. Esa es una descripción adecuada en sí misma, no solo sucede una vez tampoco.

  2. Usted sabe lo que sucedió junto con el problema,
    pero no ha pensado en las cosas que usted o su computadora hicieron antes del problema .

    No puedo decir esto, pero usted, su registro de eventos y los archivos / carpetas modificados recientemente podrían decirlo.

  3. La causa más probable es que esté relacionada con la CPU , porque es el componente que procesa las cosas.

    Más específicamente, esto podría ser un proceso, un controlador o un hardware defectuoso (¿quizás problemas de temperatura?).

  4. Sé que es CPU, pero no sé qué. Los eventos no muestran esto, Process Explorer se colgaría en DPC .

    Entonces, el siguiente paso, dejo que se ejecute el análisis de rastreo que cierro después de que se ha producido el bloqueo.

    ¡Miro el rastro y veo que el controlador X está causando el problema !

  5. No se hacen suposiciones reales. La suposición de la CPU se maneja mediante nuestro enfoque Divide & Conquer ...

Entonces, aquí es donde empiezo a dividir para conquistar el problema, me detengo una vez resuelto:

  1. ¿Problema con la versión actual del controlador?
    Actualice el controlador a la última versión.

  2. ¿Problema con las versiones más recientes del controlador?
    Consigue un nuevo rastro. Actualice el controlador a una versión anterior diferente de la inicial.

  3. Problema con el dispositivo? ¿Problema de configuración en el registro?
    Consigue un nuevo rastro. Vuelva a instalar y / o desactive el dispositivo si es posible.

  4. El problema es aleatorio, ¿se está calentando el procesador?
    Verifique la temperatura del procesador, reemplace el ventilador si es necesario.

  5. El problema no es el procesador, ¿hay otras influencias de hardware y software?
    Elimine el hardware y desactive la ejecución del software para determinar la influencia de terceros.

  6. El problema no está en una parte extraíble, debe reemplazarse.
    En el peor de los casos, si todo lo demás falla, debe buscar un reemplazo.

Obtener nuevos rastros y eliminar hardware nos brinda más información, por lo que sabemos dónde buscar a continuación.

Tamara Wijsman
fuente
44
+1 para dividir y conquistar. Aceptado para la especificación de la descripción, el seguimiento y los mecanismos para dividir y conquistar el problema.
Chris Walton
55
+1 respuesta brillante. Lo único para agregar es esto: Pon a prueba tus suposiciones
Bevan
¿Qué tal "cambiar una cosa a la vez"?
Florenz Kley
2
@Florenz: Bueno, al dividirlos, los tomas uno por uno (para un número pequeño, o cuando no puedes basarse en múltiples causas) o los divides (para un número mayor, cuando puedes verificar varias cosas en una vez. Separarse por la mitad, si es posible, es más rápido que hacerlo uno por uno. Por ejemplo, para solucionar 100 cosas solo necesita probarlo 8 veces (100-> 50-> 25-> 13-> 7-> 4-> 2-> 1), en lugar de 100 veces ...
Tamara Wijsman
2
división sensata! Lo que quise decir es "no arregles las cosas más rápido de lo que puedes atribuir un cambio a un delta observado". Usar un libro de laboratorio con páginas que no puedo arrancar es mi método para asegurarme de poder hacerlo.
Florenz Kley
6

Buenos registros e intuición, de verdad.

  • Desde el día 1, realice un seguimiento de todo lo que hace al sistema: actualizaciones de aplicaciones y sistemas operativos, nuevas instalaciones, hardware o conexiones nuevos o eliminados, la tormenta eléctrica que "no causó ningún problema".
  • Cuando notó el problema por primera vez:
    • Que habias estado haciendo
    • ¿Qué más inusual sucedió recientemente?
    • ¿Qué has hecho diferente recientemente?
    • A partir de entonces, tenga en cuenta lo que está haciendo para que la próxima vez que ocurra, tenga una mejor idea de lo que acaba de precedir.
    • Instantánea de los registros del sistema.
  • A ver si puedes reproducirlo. Hasta que no pueda reproducirlo, no podrá encontrarlo.
  • Comience a particionar el sistema: modo seguro frente a ejecución en vivo, cuenta nueva frente a su cuenta normal, teclado y mouse diferentes a los normales (especialmente bluetooth frente a cable), ¿sucede dentro de unos minutos después de iniciar o activar vs. solo después de una hora más de carrera (piense en térmica).
JRobert
fuente
2
+1 para la actividad de registro; y por intuición. No es la respuesta aceptada solo porque el registro solo es bueno si se realiza desde el día 1. He estado manteniendo registros pero no lo suficientemente detallado; y no han incluido actualizaciones del sistema de Microsoft y otras actualizaciones automáticas.
Chris Walton
1
@ChrisWalton: Hay registros detallados para Windows Update, inserción / eliminación de dispositivos, instalación de controladores, etc. Ver C:\Windows\*.log, C:\Windows\Logs, C:\Windows\inf\*.logy Performance Monitor > Data Collector Sets > (Startup) Event Trace Sessions. Además, @JRobert, +1 por explicar cómo obtener una idea con más detalle ...
Tamara Wijsman
4

Por lo general, comienzo con los registros de eventos y cualquier registro que un programa pueda crear por sí solo. Los programas a veces crean un registro en la carpeta del programa.

Una vez que pueda identificar la hora, busque eventos en los registros. Naturalmente, los registros de Windows pueden presentar errores de detención que serán fáciles de identificar.

Verifique todos los controladores y asegúrese de que estén actualizados.

Probablemente se requerirá paciencia en grandes dosis.

Dave M
fuente
2

Además de todos los buenos consejos ya dados, si los archivos de registro no le dan mucho para seguir, a menudo vale la pena realizar una prueba de memoria adecuada de la máquina: la memoria defectuosa puede causar todo tipo de extraños bloqueos y bloqueos intermitentes. La prueba de memoria integrada es mucho más parecida a un conteo de memoria, es extremadamente raro que la prueba de encendido detecte un fallo de memoria.

Diagnóstico de memoria de Google para Windows y grabarlo en un CD. Es viejo, pero es una de las mejores pruebas de memoria, y es gratis.

Mate
fuente
Gracias por su respuesta y la herramienta sugerida. Me temo que más bien se perdió el punto de mi pregunta: sugiere pruebas de memoria; alguien más sugirió descargas automáticas de software de Adobe. Mi pregunta fue En estas circunstancias, ¿cómo decide qué hacer cuando hay una amplia gama de posibilidades?
Chris Walton
1
@ Chris: Como dije; cuando soluciono problemas intermitentes e inexplicables (en una situación de desarrollo que no es nada evidente), si no hay un registro desde el que comenzar y ningún otro marcador que sugiera por dónde comenzar, realizaría una prueba de memoria. La lógica es que es relativamente rápido de ejecutar en comparación con tratar de replicar un problema intermitente. Una vez descartado, comienza a reducir y a hacerse una idea como lo expresa TomWij.
Matt
lo suficientemente justo.
Chris Walton