Error de hardware genérico APEI

9

Durante la semana pasada, mi servidor (que ejecuta Debian Jessie) se ha reiniciado dos veces. En el registro del sistema veo esto antes de cada reinicio, y en ningún otro punto:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Algunas búsquedas en Google me llevan a creer que esto tiene que ver con mi ECC RAM detectando y recuperándose de un error. ¿Es esto correcto? Si se está recuperando, ¿por qué se reinicia el sistema? Me gustaría evitar que el sistema se reinicie, si es posible.

moujik
fuente

Respuestas:

9

Parece que su RAM está fallando o tiene errores que se están corrigiendo. Dependiendo de la gravedad, parece que estos errores están afectando su capacidad de funcionamiento y luego tiene que reiniciarse.

Por lo que se ve en este hilo, es probable que el culpable sea el bit de mensaje al final sobre la longitud de la sección de error demasiado pequeña.

extracto - [PATCH 1/1] efi: cper: admite diferentes longitudes de sección de error

Es posible que se agreguen algunos campos a la Sección de errores en la nueva especificación UEFI. Por ejemplo, los campos 'Reservado', 'Número de rango', 'Manija de tarjeta' y 'Manija de módulo' se agregan a la Sección de error de memoria iniciada desde la especificación 2.3 de UEFI. Desafortunadamente, habrá el siguiente mensaje de advertencia si se detecta el error de memoria corregida y el campo 'revisión' en struct acpi_generic_data es menor que 0x203 (UEFI espec. 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Este comportamiento hace que este error corregido no se pueda mostrar correctamente. Para resolver el problema, este parche admite diferentes longitudes de la sección de error para diferentes versiones de especificaciones UEFI.

Y, este parche emplea una estructura predefinida para limpiar los códigos duplicados en la función cper_estatus_print_section.

Con la aplicación de este parche, el error de memoria corregida podría mostrarse correctamente después de inyectar el error.

Probado en v3.14-rc5 con plataforma Grantley e Intel RAStool.

Por lo tanto, parece que se está preparando un parche para ese error en particular y podría estar disponible en una versión más reciente del núcleo.

slm
fuente
3

FYI, parecía tener un problema muy similar a este.

Al final resultó que la solución estaba sacando la memoria y volviéndola a poner, y todo volvió a la normalidad.

Darren Harrison
fuente