¿Cómo encontrar el módulo de memoria defectuoso del mensaje MCE?

11

Estoy tratando de entender el mensaje MCE para encontrar qué módulo de memoria es malo en un servidor. Este mensaje aparece en /var/log/kern.logun servidor que se congela dos veces hoy.

Apr 13 22:39:22 mbox kernel: [36247975.116860] sbridge: HANDLING MCE MEMORY ERROR
Apr 13 22:39:22 mbox kernel: [36247975.116867] CPU 0: Machine Check Exception: 0 Bank 5: 8c00004000010090
Apr 13 22:39:22 mbox kernel: [36247975.116869] TSC 0 ADDR 4a0d75900 MISC 21405cdc86 PROCESSOR 0:206d7 TIME 1428957562 SOCKET 0 APIC 0
Apr 13 22:39:22 mbox kernel: [36247975.951013] EDAC MC0: 1 CE memory read error 

Sospecho que hay un módulo de memoria defectuoso. El servidor es un Xeon E5-2650 2x con módulos de memoria 8x8Go (8 ranuras de memoria para cada CPU)

Aquí está la población del módulo de memoria de lshw:

 *-memory:0
      description: System Memory
      physical id: 2d
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B83AE5C2
         slot: P1_DIMMA1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P1_DIMMA2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EC309238
         slot: P1_DIMMB1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P1_DIMMB2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E9305438
         slot: P1_DIMMC1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P1_DIMMC2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305738
         slot: P1_DIMMD1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P1_DIMMD2
         width: 64 bits
 *-memory:1
      description: System Memory
      physical id: 3f
      slot: System board or motherboard
    *-bank:0
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-197.A
         vendor: Kingston
         physical id: 0
         serial: B63A08C3
         slot: P2_DIMME1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:1
         description: DIMM Synchronous [empty]
         product: Dimm1_PartNum
         vendor: Dimm1_Manufacturer
         physical id: 1
         serial: Dimm1_SerNum
         slot: P2_DIMME2
         width: 64 bits
    *-bank:2
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 2
         serial: EA309638
         slot: P2_DIMMF1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:3
         description: DIMM Synchronous [empty]
         product: Dimm4_PartNum
         vendor: Dimm4_Manufacturer
         physical id: 3
         serial: Dimm4_SerNum
         slot: P2_DIMMF2
         width: 64 bits
    *-bank:4
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 4
         serial: E7305938
         slot: P2_DIMMG1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:5
         description: DIMM Synchronous [empty]
         product: Dimm7_PartNum
         vendor: Dimm7_Manufacturer
         physical id: 5
         serial: Dimm7_SerNum
         slot: P2_DIMMG2
         width: 64 bits
    *-bank:6
         description: DIMM DDR3 1333 MHz (0,8 ns)
         product: 9965516-048.A
         vendor: Kingston
         physical id: 6
         serial: E7305B38
         slot: P2_DIMMH1
         size: 8GiB
         width: 64 bits
         clock: 1333MHz (0.8ns)
    *-bank:7
         description: DIMM Synchronous [empty]
         product: Dimm10_PartNum
         vendor: Dimm10_Manufacturer
         physical id: 7
         serial: Dimm10_SerNum
         slot: P2_DIMMH2
         width: 64 bits
 *-memory:2 UNCLAIMED
      physical id: 7
 *-memory:3 UNCLAIMED
      physical id: 9

Como puede observar, no hay un módulo de memoria en el banco # 5 que. Entonces mi pregunta es: ¿está de acuerdo con que este mensaje se trata de un fallo de memoria? Y si es así, ¿cómo puedo encontrar qué módulo se va a reemplazar?

Matg
fuente

Respuestas:

10

Estos errores provienen de la clase edac_mc de detección y corrección de errores del EDAC del dispositivo.

Los eventos que está recibiendo son eventos CE (errores corregibles). Estas son indicaciones de que un DIMM está comenzando a fallar.

EDAC no ha informado ninguna información específica sobre a qué fila o canal de memoria se refiere, por lo que es difícil saber cuál reemplazar hasta que falle.

pero eche un vistazo a: / sys / devices / system / edac / mc / mc * y esto podría informarle un poco más sobre qué fila / dimm podría ser el defectuoso.

Por ejemplo

ls -s /sys/devices/system/edac/mc/mc0 total 0 0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb 0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count 0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count

mira el campo ce_count.

en otros comentarios :

El sistema aún puede seguir funcionando, pero con menos seguridad. El mantenimiento preventivo y el reemplazo proactivo de piezas de DIMM de memoria que exhiben CE pueden reducir la probabilidad de los temidos eventos UE (error no corregible) y 'pánico' del sistema.

Más información sobre edac aquí:

https://www.kernel.org/doc/Documentation/edac.txt

Kamger
fuente
o reiniciar, y en la pantalla de inicio de GRUB, seleccione memtest y eso podría darle un poco más de información.
kamger
No más mensajes MCE esta mañana allí (no tienen acceso físico al servidor), esperando que verifique edac, ¡buena idea!
Matg
1

Puede ayudar a instalar mcelog y ejecutarlo como un demonio, puede ayudar a proporcionar mejores informes. Todavía son crípticos, pero hay un poco más de información para encontrar el DIMM de culrpit.

mcelog también puede manejar problemas en tiempo real al deshabilitar páginas con errores de memoria excesivos y, por lo tanto, le brinda más oportunidades de mantener la máquina funcionando más tiempo hasta que pueda recuperarla.

Baruch Even
fuente
Gracias, es lo que he hecho pero no más errores desde la primera publicación. Decidimos reemplazar todo el DIMM.
Matg
A veces, los errores son transitorios fugaces y, a veces, simplemente están vinculados a ubicaciones muy específicas que rara vez se tocan. Si los errores no se repiten, personalmente no habría reemplazado los dimms y solo seguiría monitoreando, pero el reemplazo también es válido.
Baruch Incluso
1

Algunos proveedores dicen que varios errores corregibles durante un cierto período de tiempo no son perjudiciales.

Por ejemplo, Oracle dice reemplazar un DIMM cuando ocurre uno de los siguientes eventos:

  • Más de 24 errores corregibles (CE) se originan en 24 horas desde un solo DIMM y ningún otro DIMM muestra más CE.

  • El DIMM falla la prueba de memoria en BIOS debido a errores de memoria no corregibles (UCE).

  • Se producen UCE y la investigación muestra que los errores se originaron en la memoria.

Aviso 24 errores en 24 horas.

https://docs.oracle.com/cd/E19150-01/820-4213-11/dimms.html

También,

Si más de un DIMM ha experimentado múltiples CE, un especialista calificado de Sun Support debe descartar otras posibles causas de CE antes de reemplazar cualquier DIMM.

Sobre el último punto, HP dice algo similar que podría ser solo el firmware del servidor el que detecta errores de memoria. Dicen que en muchos casos la actualización del firmware corrige alertas falsas positivas. Esto podría ser especialmente cierto si comenzó a recibir MCE de diferentes DIMM.

Tagar
fuente