¿Tiene alguna regla general a la que recurra cuando soluciona un problema de red / hardware / software difícil?
Por ejemplo: "Aíslo la fuente del problema probando un periférico con una segunda computadora" o "Elimino la mayor cantidad de hardware posible para encender el dispositivo, y luego vuelvo a agregar componentes uno por uno hasta que pueda reproducir el problema" etc.
troubleshooting
nombre de usuario
fuente
fuente
Respuestas:
Solo una lista de puntos que escribí para mí después de luchar con un problema por un tiempo:
También había una gran lista de reglas de depuración, estaba en formato PDF con ejemplos y explicaciones para cada una de las reglas. No pude encontrar rápidamente el PDF, pero creo que este es un póster de la lista:
fuente
Si el problema está relacionado con Internet, probablemente sea el DNS.
Si el problema es difícil de diagnosticar, probablemente sea la RAM.
Si el problema es con una estación de trabajo de Windows, probablemente sea más rápido volver a crearla.
Si el problema es un viernes, probablemente sea algo serio.
fuente
Me gusta recurrir al método científico .
De ( http://en.wikipedia.org/wiki/Scientific_method )
Como regla general, siempre me gusta probar y verificar mis suposiciones básicas. ¿Tiene energía, está enchufado, el cableado es bueno? Es muy molesto pasar horas tratando de ver un problema de software cuando tienes un cable suelto.
Encuentro muy importante durante la fase de creación de hipótesis que realmente se me ocurran tantas causas posibles del problema como pueda. Luego trato de elegir ideas para probar primero en función de lo fácil que es probar y cuán probable es la idea.
También es importante obtener ayuda. Si puede, consulte a sus compañeros de trabajo, proveedor o al que tenga más conocimientos sobre los sistemas en cuestión. No pierdas mucho tiempo haciendo girar tus ruedas sobre un problema si hay alguien disponible que pueda ayudarte a resolver el problema.
O'Reilly tiene un buen libro Herramientas de solución de problemas de red que tiene un buen conjunto de pasos a seguir que es muy similar al método científico. El libro me pareció muy útil y lo recomiendo encarecidamente. El libro entra en muchos más detalles y sugiere muchas herramientas útiles.
Desde las herramientas de solución de problemas de red
Ver también:
fuente
(Estos aspectos destacados se parafrasean del capítulo "Depuración" de "La práctica de la administración de sistemas y redes" )
Dos cosas para saber:
Sepa cómo se ve la versión "fija". Preferiblemente, un comando que puede ejecutar que proporciona una cierta salida cuando las cosas funcionan. Por ejemplo: estoy tratando de averiguar por qué SSH solicita una contraseña cuando configuré las claves correctamente (o eso pensé). Entonces mi prueba es: "ssh servername uptime" y debería funcionar sin pedir una contraseña.
Describa el problema en el nivel correcto. Un usuario que se queja de que no puede hacer ping a un servidor no debe enviarlo a ejecutar y reparar el servidor. El trabajo de la persona no es sentarse y hacer ping a una máquina todo el día. Quieren realizar algún tipo de tarea, como usar la máquina como su servidor DNS. Ejemplo: una vez que un usuario se quejó de que no podía hacer ping a una máquina en la mitad del mundo. Me paso el día rastreando administradores de sistemas en esa parte de la compañía para averiguar qué estaba mal con esa máquina. Fue dado de baja y estaban en pánico porque pensaron que tal vez habían apagado la máquina incorrecta. Me puse en contacto con el usuario y le dije "además de tener que hacer ping a esta máquina, ¿qué le gustaría hacer con ella?". Resultó que quería ejecutar un determinado trabajo y si hubiera seguido el procedimiento adecuado, sus tareas se habrían redirigido automáticamente a la máquina de reemplazo. Había malgastado todo mi día y el tiempo de los administradores de sistemas locales. Otra razón por la que "No puedo hacer ping" no es lo correcto para probar: a menudo los cortafuegos están configurados para descartar paquetes de ping pero permiten el paso de otros paquetes. Prueba por lo que quieres pasar.
Dos estrategias:
Aditivo: siga agregando componentes hasta que comience el problema. Lo último que agregó es el problema. Ejemplo: los navegadores web no pueden hablar con un servidor. Entre el servidor y el usuario hay un equilibrador de carga, un firewall, un caché y el proxy web local del usuario. Primero intente enviar consultas directamente al servidor, luego a través del LB al servidor, luego a través del firewall al LB al servidor, etc., cada vez que agregue un componente.
Sustractivo: siga quitando componentes hasta que el problema desaparezca. Lo último que eliminó fue el problema: Ejemplo: una máquina con docenas de tarjetas no arrancará. Siga quitando las tarjetas hasta que la máquina arranque.
Dos trozos de tonta suerte:
Olvida todo lo que dije. El problema se debe al último cambio realizado en el sistema. (esto funciona el 99% del tiempo ... el problema es que el 99% del tiempo no sabes cuál fue el último cambio)
Cuando todo lo demás falla, busca cosas estúpidas. http://whatexit.org/tal/mywritings/dumb-things-to-check.html Ejemplo: un problema loco simplemente no podía explicarse. Luego verificamos el archivo de configuración: un usuario lo editó copiándolo en un cuadro de Windows, editándolo y luego volviéndolo a copiar. Ahora tenía una ^ M al final de cada línea. Nunca nos dimos cuenta porque nuestro editor de texto silenciosamente ocultó este hecho. Lamentablemente, el software que leyó el archivo de configuración convirtió esos ^ Ms en un espacio sin interrupciones que arruinó toneladas de otros procedimientos.
fuente
Prácticas generales que recuerdo durante todo el proceso:
Durante la resolución de problemas aquí define mi metodología básica:
fuente
Actitudes que intento mantener:
Estas son actitudes que son útiles para mí: me impiden lanzar mis brazos en el aire, declarar algo "extraño" y luego rendirme o sentirme infeliz porque se siente "irresoluble".
Formas en que pienso sobre la resolución de problemas:
El proceso de resolución de problemas:
¿Internet no funciona? Comprueba el problema, encuentra que es un sitio web al que no pueden acceder. Las pruebas rápidas implican su conexión a Internet (en funcionamiento), ¿me carga (no)? Las pruebas rápidas apuntan a que es el sitio. Al ver que el problema me sucede, he alejado rápidamente la probabilidad de su PC, navegador, DNS, firewall de la oficina de cuentas de usuario, etc.
Entonces el sitio no se carga, ¿y ahora qué? Eso aún no se puede arreglar, así que busque lugares para dividir el problema en uno más pequeño. ¿Está encendido el servidor? ¿Hace ping? funciona DNS? Sí. ¿Responde el servicio en el puerto 80? No. ¿Se está ejecutando el servicio? No. ¿Comienza? No. ¿Da errores en el registro de eventos / archivos de registro? ¡Sí! ¿Qué dicen ellos?
Esta es una solución de problemas eficiente y rápida porque se enfoca implacablemente en reducir el alcance del problema. Si aceptara su informe de que Internet no funciona, me equivocaría al pensar que es un fallo de conexión. Si aceptara mi primer avistamiento de que no se carga para ellos, perdería el tiempo en su computadora pensando que es la culpa.
Forme trozos de "cosas que no pueden ser" lo más grande posible.
Comprende el sistema. Cuanto más conocimiento general tengo sobre un sistema, más fácil se vuelve. Donde tengo una comprensión débil, los problemas son más intimidantes, más difíciles, más lentos y más propensos a terminar con una solución alternativa que una solución, o con una gran solución lenta tonta (reinstalar) que una solución quirúrgica pequeña y precisa.
fuente
En general, pregunto "¿Qué ha cambiado que podría haber causado este problema"? La mayoría de los problemas son causados por cambios en las configuraciones buenas conocidas. Si puede aislar quién hizo el cambio, generalmente obtiene su respuesta.
fuente
Creo que es una habilidad, no una ciencia. Hay momentos en los que va por el camino equivocado, pero en su mayor parte:
Una vez hice que mi jefe me llamara con un ingeniero "senior" en el teléfono; me decía que tenía un servidor que no podía conectarse y que había intentado cambiar el cable pero todavía no era divertido. Podía escuchar un pitido en el fondo como un UPS con baterías. Le pregunté si podía ver actividad en el interruptor, dijo que no. Le pregunté si el pitido provenía del UPS, dijo que sí, le pregunté si podía ver alguna luz encendida en el estante y dijo que no ... Mira más allá de tu nariz, ¡ayuda!
fuente
Comienzo comprobando lo obvio. ¿Hay un mensaje de error que explique cuál es el problema? ¿Está todo conectado correctamente? No me gusta perder varias horas resolviendo problemas que podrían haberse resuelto en unos minutos. Creo que es posible ser demasiado metódico. He visto a personas desperdiciar un día entero reproduciendo un problema a pesar de que les dije exactamente cuál era el problema. Eso no es lo que les pago.
Si la respuesta no es obvia, alinee a algunos sospechosos y pruébelos primero. Solo después de evaluar a los sospechosos probables, debe evaluar a los sospechosos poco probables. Entonces puedes ser tan científico como quieras.
fuente