Cuando corro nvidia-smi
me sale el siguiente mensaje:
Failed to initialize NVML: Driver/library version mismatch
Hace una hora recibí el mismo mensaje y desinstalé mi biblioteca cuda y pude ejecutar nvidia-smi
, obteniendo el siguiente resultado:
Después de esto lo descargué cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
de la página oficial de NVIDIA y luego simplemente:
sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
Ahora tengo cuda instalado, pero recibo el error de falta de coincidencia mencionado.
Alguna información potencialmente útil:
Corriendo cat /proc/driver/nvidia/version
me sale:
NVRM version: NVIDIA UNIX x86_64 Kernel Module 378.13 Tue Feb 7 20:10:06 PST 2017
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)
Estoy ejecutando Ubuntu 16.04.2 LTS.
La versión del kernel es: 4.4.0-66-generic.
¡Gracias!
Respuestas:
Sorpresa sorpresa, reiniciar resolvió el problema (pensé que ya lo había intentado).
La solución que Robert Crovella mencionó en los comentarios también puede ser útil para otra persona, ya que es bastante similar a lo que hice para resolver el problema la primera vez que la tuve.
fuente
/var/log/apt/history.log
Ubuntu, se reveló que el sistema ha actualizado automáticamente libcuda, que presumiblemente requirió un reinicio para continuar funcionando correctamente. Desde entonces he deshabilitado esas actualizaciones con la esperanza de que no las vuelva a ver.nvidia-390
). Vea mi respuesta a continuaciónsudo reboot now
y otras no.Como dijo @etal, reiniciar puede resolver este problema, pero creo que un procedimiento sin reiniciar ayudará.
Para chino, mira mi blog -> 中文 版
El mensaje de error
díganos que el módulo del kernel del controlador de Nvidia (kmod) tiene una versión incorrecta, por lo que debemos descargar este controlador y luego cargar la versión correcta de kmod
Como hacer eso ?
Primero, debemos saber qué controladores están cargados.
puedes obtener
nuestro objetivo final es descargar
nvidia
mod, por lo que debemos descargar el módulo dependiendo denvidia
entonces, descarga
nvidia
Solución de problemas
si obtiene un error como
rmmod: ERROR: Module nvidia is in use
, que indica que el módulo del núcleo está en uso, debe eliminar el proceso que usa el kmod:y luego mata esos procesos, luego continúa descargando los kmods
Prueba
confirme que descargó con éxito esos kmods
no debería obtener nada, luego confirme que puede cargar el controlador correcto
deberías obtener la salida correcta
fuente
Entonces estaba teniendo este problema, ninguno de los otros remedios funcionó. El mensaje de error era opaco, pero verificar dmesg fue clave:
Sin embargo, eliminé por completo la versión 384 y eliminé los controladores de kernel restantes
nvidia-384*
. Pero incluso después de reiniciar, todavía recibía esto. Ver esto significaba que el kernel todavía estaba compilado para la referencia 384, pero solo estaba encontrando 410. Así que volví a compilar mi kernel:Y luego funcionó.
Después de eliminar 384, todavía tenía 384 archivos en: /var/lib/dkms/nvidia-XXX/XXX.YY/4.13.0-43-generic/x86_64/module /lib/modules/4.13.0-43-generic/ kernel / drivers
Recomiendo usar el
locate
comando (no instalado de manera predeterminada) en lugar de buscar el sistema de archivos cada vez.fuente
locate nvidia-smi
. Usé el comando para descubrir que otro controlador estaba instalado.uname -r
No me ayudó.dmesg
salida:NVRM: API mismatch: the client has the version 418.67, but NVRM: this kernel module has the version 430.26. Please NVRM: make sure that this kernel module and all NVIDIA driver NVRM: components have the same version.
Recibí el error
failed to initialize NVML: Driver/Library version mismatch
de mi nvidia-gpu-temperature-indicator. Y nvidia-smi no pudo imprimir ninguna información. Traté de encontrar si había otras versiones del controlador nvidia instaladas en mi ubuntu. Pero acabo de encontrar nvidia-driver-390. Al final,reboot
me ayudó a resolver el problema.fuente
Las 2 respuestas principales no pueden resolver mi problema. Encontré una solución en el foro oficial de Nvidia que resolvió mi problema. La siguiente información de error puede causar la instalación de dos versiones diferentes del controlador mediante diferentes enfoques. Por ejemplo, instale el controlador Nvidia por el apt y el instalador oficial.
Para resolver este problema, solo necesita ejecutar uno de los siguientes dos comandos.
fuente
Esto también me sucedió en Ubuntu 16.04 usando el
nvidia-348
paquete (última versión de nvidia en Ubuntu 16.04).Sin embargo, podría resolver el problema mediante la instalación a
nvidia-390
través de los controladores de GPU patentados PPA .Entonces, una solución al problema descrito en Ubuntu 16.04 es hacer esto:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-390
Nota: Esta guía asume una instalación limpia de Ubuntu. Si tiene controladores anteriores instalados, es posible que sea necesario reiniciar para volver a cargar todos los módulos del kernel.
fuente
Tuve el problema también. (Estoy ejecutando ubuntu 18.04)
Lo que hice:
dpkg -l | grep -i nvidia
Entonces
sudo apt-get remove --purge nvidia-381
(y cada versión duplicada, en mi caso tenía 381, 384 y 387)Luego
sudo ubuntu-drivers devices
para enumerar lo que está disponibleY elijo
sudo apt install nvidia-driver-430
Después de esto,
nvidia-smi
dio la salida correcta (no es necesario reiniciar). Pero supongo que puede reiniciar cuando tenga dudas.También seguí esta instalación para reinstalar cuda + cudnn.
fuente
Experimenté este problema después de una actualización normal del kernel en una máquina CentOS. Como todos los controladores y bibliotecas de CUDA y nVidia se han instalado a través de repositorios de YUM, logré resolver los problemas con los siguientes pasos:
Se aseguró de que mi kernel y mi controlador nVidia sean consistentes. Creo que solo reiniciar puede dar como resultado que se cargue una versión incorrecta del módulo del kernel.
fuente
Tengo que reiniciar mis núcleos y eliminar todos los paquetes que he instalado previamente (durante la primera instalación), asegúrese de eliminar todos los paquetes, incluso después de eliminarlos mediante el comando a continuación
los paquetes como "libtinfo6: i386" no se eliminan
Estoy usando Ubuntu 20.04 y Nvidia-driver-440 para eso tienes que eliminar todos los paquetes que se muestran a continuación.
Lista de todos los paquetes que deben eliminarse:
como se muestra en la imagen, asegúrese de que el paquete que está instalando sea del tamaño correcto que sea 207 Mb para Nvidia-driver-440, si es menor significa que no ha eliminado todos los paquetes.
fuente
Había reinstalado el controlador nvidia: ejecuta estos comandos en
root
modo:systemctl isolate multi-user.target
modprobe -r nvidia-drm
Vuelva a instalar el controlador Nvidia:
chmod +x NVIDIA-Linux-x86_64–410.57.run
systemctl start graphical.target
y finalmente verifica
nvidia-smi
Gracias a: Cómo instalar los controladores Nvidia y CUDA-10.0 para la GPU RTX 2080 Ti en Ubuntu-16.04 / 18.04
¿Cómo descargar el módulo de kernel 'nvidia-drm'?
fuente
Para completar, me encontré con este problema también. En mi caso, resultó que porque había configurado Clang como mi compilador predeterminado (usando
update-alternatives
),nvidia-driver-440
no pude compilar (verificar/var/crash/
) a pesar deapt
que no publiqué ninguna advertencia. Para mí, la solución eraapt purge nvidia-*
,cc
volver a usargcc
, reiniciar y reinstalarnvidia-driver-440
.fuente
Cometí el contenedor en una imagen acoplable. Luego recreé otro contenedor usando esta imagen acoplable y el problema desapareció.
fuente
Estas respuestas no me funcionaron:
https://stackoverflow.com/a/43023000/1179925
https://stackoverflow.com/a/45319156/1179925
https://stackoverflow.com/a/54349675/1179925
dmesg
Desinstale el controlador anterior
418.67
e instale el nuevo controlador430.26
(descargaNVIDIA-Linux-x86_64-430.26.run
):cat /proc/driver/nvidia/version
fuente
reiniciar. Si el problema persiste:
por ciento / rhel
luego
fuente
Para mi caso, he instalado el controlador nvidia y luego cuda. Descubrí que se puede solucionar simplemente instalando cuda. https://developer.nvidia.com/cuda-toolkit
fuente