LInux: ¿Cómo diagnostico / aíslo lo que está causando bloqueos "aleatorios" y reinicios espontáneos?

20

(publicado originalmente en serverfault )

Entonces, en lugar de adivinar cuál es la causa (aunque mi dinero está en los controladores nvidia), ¿dónde empiezo a buscar para precisar algunos hechos?

He revisado / var / log en varias ocasiones, pero hay MUCHAS cosas allí y no puedo (todavía) detectar los bits importantes.


Antecedentes: la versión corta

Me mudé de WinXP a Ubuntu Karmic justo después de que estuvo disponible.

Desde entonces, he tenido una serie de bloqueos aparentemente aleatorios que se manifiestan como:

  • un reinicio espontáneo
  • un bloqueo completo con mi teclado y mouse USB que deja de responder (hasta que los LED se apagan). Además, normalmente no podré enviar ssh a la caja cuando esto suceda.

He investigado mucho y Nvidia parece ser el principal sospechoso, pero no tengo idea de dónde empezar a buscar para averiguar cuál es la verdadera causa.

Un usuario predeterminado del servidor sugirió verificar la RAM con MemtextX86 +. No se encontraron errores. También se ha sugerido controlar la temperatura de la tarjeta de video, que estoy investigando ahora.

Aparte de eso, sugerencias de alguien?



Antecedentes: la versión larga

A veces, puedo pasar una semana entera sin un accidente y luego tener 5 en 2 días.

Motivado por el deseo de eliminar posibles sospechosos, he hecho algunos cambios con el tiempo en vano:

  • Originalmente usé KVM para la virtualización, ahora uso VirtualBox OSE
  • Tenía NFS ejecutándose en el kernel pero ahora uso Samba
  • Estaba usando Compiz pero desde entonces lo apagué
  • He pasado de Karmic de 64 bits a 32 bits (también por otras razones)
  • He probado Ubuntu, Kubuntu y Xubuntu. El mismo problema cada vez (aunque últimamente parece ser más frecuente en Gnome que en XFCE).
  • Puse el controlador Nvidia de la versión 185 a la versión 96 (NVIDIA Linux x86 Kernel Module 96.43.13 jue 25 de junio 18:42:21 PDT 2009). Esto parece haber reducido la frecuencia de error.


En términos de lo que se está ejecutando en ese momento, esto puede variar. Los siguientes son comunes pero no necesariamente se ejecutaron para cada bloqueo:

  • Firefox 3.5
  • VirtualBox OSE con 1 o 2 máquinas virtuales con Windows XP
  • Skype
  • Rhythmbox o Exaile


Mi hardware tiene 2 o 3 años:

  • Core 2 Duo 6300
  • 4 GB de RAM
  • alguna raza de placa base Intel de esa época
  • una tarjeta de video de doble cabezal Asus con el chipset Nvdia GeForce 7300 GS
  • 2 x discos duros SATA
  • monitores duales (por lo tanto, confío en los controladores propietarios de nvidia)


Me he mantenido al día con las actualizaciones de mi sistema.

Con suerte, los datos anteriores podrían incitar a alguien a sugerir un tipo específico de registro o configuración que valdría la pena investigar.


Actualización 1

acabo de tener un accidente en el que los altavoces se volvieron locos Busqué en Google y parece que PulseAudio ha tenido algunos problemas en el pasado. Todavía no estoy seguro si esto es relevante, pero PulseAudio se habrá estado ejecutando cada vez que tuve un bloqueo.


Actualización 2

Seguir el enlace de @ CarlF a la Guía del administrador de sistemas de Debian me ha llevado a la clave sysrq mágica que intentaré en el próximo bloqueo. No es que esto me dé muchas pistas sobre la causa, pero al menos espero poder cerrar con gracia.


Actualización 3

lm-sensores informa que mi GPU funciona a casi 70 ° C / 158 ° F: interesante. Si tuviera que adivinar, diría que esta es una pista importante.


Actualización 4

Golpee el interior del sistema con un airduster poco después de mi última actualización: resultado neto: solo un bloqueo desde entonces. Voy a llamar a esto un problema térmico.

LRE
fuente
3
Excelente formato e información de fondo, desearía que todas las preguntas fueran así. +1.
John T

Respuestas:

8

Aquí hay buenos consejos de la Guía del administrador de Debian: http://www.debian-administration.org/articles/492

CarlF
fuente
Es interesante ver lo que tienen que decir sobre los registros no informativos que son un signo de problemas reales de hardware. Tengo un intervalo de seis horas entre la última entrada / var / log / message y el reinicio. Hmmmm
LRE
acepté alegando que el enlace dejaba en claro que nada en los registros es igual a un problema de hardware: guíame en la dirección correcta.
LRE
4

Lo primero que puede desear es verificar si hay problemas de hardware durante el arranque. El proceso de arranque registrará los datos del búfer de anillo del núcleo en /var/log/boot.log. Después de que se inicia el sistema, los nuevos mensajes se vacían en este búfer y puede ver su estado actual con el dmesgcomando. Un registro importante que también querrás investigar es /var/log/messages. Esto contendrá marcas de tiempo, instalaciones y las prioridades de los errores y la aplicación que los generó. Tener una marca de tiempo disponible es un activo invaluable cuando se depuran errores.

Sin embargo, los bloqueos aleatorios definitivamente suenan relacionados con hardware. Intente volver a colocar todo el hardware en la placa base y ejecutar una prueba memtest86 + .

John T
fuente
Veo una línea en / var / log / messages que dice "imklog 4.2.0, log source = / var / run / rsyslog / kmsg inició". ¿Es este un buen indicador de un arranque del sistema? Si es así, puedo usar eso para identificar un área del registro desde la que puedo escanear.
LRE
Sí, creo que es una de las primeras, si no la primera línea después de un arranque. Es el módulo de entrada del registro del kernel.
John T
2

¿Has intentado volver a colocar tu memoria, procesador y otros chips? Además, puede intentar ejecutar otro sistema operativo (FreeDOS) para eliminar algunas posibilidades.

Como consejo, también debería poder usar dos monitores bastante bien a través de Gnome sin usar los controladores nvidia.

Nerdfest
fuente
lo mejor que he podido decir es que definitivamente necesito los controladores propietarios de nvidia para usar monitores duales. ¿Puedes señalarme en la dirección correcta para no necesitarlos?
LRE
Puedo ser incorrecto He hurgado un poco y veo referencias a xinerama (para lo cual creo que el controlador tiene extensiones) pero nada relacionado con controladores no propietarios. Desafortunadamente, no tengo una máquina con una tarjeta nVidia para jugar.
Nerdfest