¿Se está muriendo mi GPU?

14

Desactivo temporalmente la protección de memoria ECC en un NVIDIA K20m (dispositivo 0 en mi nodo) y ahora no puedo volver a ponerlo en funcionamiento. Antes de eso funcionaba correctamente con ECC habilitado. Entonces, esto es lo que hice: deshabilité ECC con

nvidia-smi -i 0 --ecc-config=0

y reiniciado. Cuando apareció, mostró una utilización del 100% de la GPU y no inició ningún núcleo (en realidad ya falló al crear el contexto). La razón fue un error de doble bit. Lo reinicio con

nvidia-smi -i 0 --reset-ecc-errors=0

y reinició el nodo. Después del reinicio, la utilización del dispositivo fue del 0% y pude iniciar los trabajos como de costumbre. Unas horas más tarde, el dispositivo mostró nuevamente una utilización del 100% de la GPU. Esta vez no informó un error de doble bit (ni siquiera un error de un solo bit). Sin embargo, dado que no pude ejecutar ningún trabajo, reinicié el nodo y apareció con una utilización de GPU del 100%, no puedo usarlo, pero no informa de ningún error. ¿Qué pasa esto?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None
ritter
fuente
2
parece extraño; Nunca vi algo como esto. Aunque puede que no ayude a resolver el problema, ¿quizás intentes reinstalar tus controladores?
Ben Franchuk
¿Supongo que ya intentaste lo obvio simplemente desechar y reinstalar todo? Quiero decir, uhm, sé poco sobre hardware, por lo que mi enfoque es siempre asegurarme de que el software, lo que entiendo, debería funcionar. Y luego posiblemente declare la pieza rota hasta que sea contradicho por una opinión más informada.
Ariane
Lo revisé y pasé un tiempo investigando este problema y sus causas. Parece que la mejor solución es reemplazar el hardware.
Adovi
1
¿Ya intentaste restablecer CMOS?
Sergei

Respuestas:

2

¿Se está muriendo mi GPU?

Yo digo que ya está muerto. Ya no informa errores de bits porque desactivaste lo que los detecta. (ECC detecta más de lo que puede corregir). Sin embargo, puede ser la memoria en la tarjeta (o la tarjeta física en sí) la que ha desarrollado una falla.

Hay otros dos sospechosos antes de arrojarlo a la papelera de reciclaje: refrigeración y fuente de alimentación. El enfriamiento es lo suficientemente fácil de verificar; poder, no tanto.

Ricky Beam
fuente