Desactivo temporalmente la protección de memoria ECC en un NVIDIA K20m (dispositivo 0 en mi nodo) y ahora no puedo volver a ponerlo en funcionamiento. Antes de eso funcionaba correctamente con ECC habilitado. Entonces, esto es lo que hice: deshabilité ECC con
nvidia-smi -i 0 --ecc-config=0
y reiniciado. Cuando apareció, mostró una utilización del 100% de la GPU y no inició ningún núcleo (en realidad ya falló al crear el contexto). La razón fue un error de doble bit. Lo reinicio con
nvidia-smi -i 0 --reset-ecc-errors=0
y reinició el nodo. Después del reinicio, la utilización del dispositivo fue del 0% y pude iniciar los trabajos como de costumbre. Unas horas más tarde, el dispositivo mostró nuevamente una utilización del 100% de la GPU. Esta vez no informó un error de doble bit (ni siquiera un error de un solo bit). Sin embargo, dado que no pude ejecutar ningún trabajo, reinicié el nodo y apareció con una utilización de GPU del 100%, no puedo usarlo, pero no informa de ningún error. ¿Qué pasa esto?
GPU 0000:02:00.0
Product Name : Tesla K20m
Display Mode : Disabled
Persistence Mode : Enabled
Driver Model
Current : N/A
Pending : N/A
Serial Number : 0324512044699
GPU UUID : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
VBIOS Version : 80.10.11.00.0B
Inforom Version
Image Version : 2081.0208.01.07
OEM Object : 1.1
ECC Object : 3.0
Power Management Object : N/A
GPU Operation Mode
Current : Compute
Pending : Compute
PCI
Bus : 0x02
Device : 0x00
Domain : 0x0000
Device Id : 0x102810DE
Bus Id : 0000:02:00.0
Sub System Id : 0x101510DE
GPU Link Info
PCIe Generation
Max : 2
Current : 2
Link Width
Max : 16x
Current : 16x
Fan Speed : N/A
Performance State : P0
Clocks Throttle Reasons
Idle : Not Active
User Defined Clocks : Not Active
SW Power Cap : Not Active
HW Slowdown : Not Active
Unknown : Not Active
Memory Usage
Total : 4799 MB
Used : 12 MB
Free : 4787 MB
Compute Mode : Default
Utilization
Gpu : 100 %
Memory : 0 %
Ecc Mode
Current : Enabled
Pending : Enabled
ECC Errors
Volatile
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Aggregate
Single Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Double Bit
Device Memory : 0
Register File : 0
L1 Cache : 0
L2 Cache : 0
Texture Memory : 0
Total : 0
Temperature
Gpu : 30 C
Power Readings
Power Management : Supported
Power Draw : 49.51 W
Power Limit : 225.00 W
Default Power Limit : 225.00 W
Min Power Limit : 150.00 W
Max Power Limit : 225.00 W
Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Applications Clocks
Graphics : 705 MHz
Memory : 2600 MHz
Max Clocks
Graphics : 758 MHz
SM : 758 MHz
Memory : 2600 MHz
Compute Processes : None
fuente
Respuestas:
¿Se está muriendo mi GPU?
Yo digo que ya está muerto. Ya no informa errores de bits porque desactivaste lo que los detecta. (ECC detecta más de lo que puede corregir). Sin embargo, puede ser la memoria en la tarjeta (o la tarjeta física en sí) la que ha desarrollado una falla.
Hay otros dos sospechosos antes de arrojarlo a la papelera de reciclaje: refrigeración y fuente de alimentación. El enfriamiento es lo suficientemente fácil de verificar; poder, no tanto.
fuente