En /var/log/kern.log:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Este es el edacregistro, uno de la memoria tiene ceerror.
He leído edac doc
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
y encuentra el canal de error:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
y debería ser mc0/csrow0/ch2, como el documento, el DIMM debería ser DIMM_C0, y puede ser encontrado por dmidecode:
Pero no puedo encontrar este DIMM, así que no sé qué memoria tiene problemas:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Hay 12 ranuras y 9 ranuras tienen memoria.
Entonces, ¿cómo puedo saber qué memoria tiene problemas?
Suplemento:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6

Ubuntu 12.04, Kernel es3.10.20Respuestas:
Su problema DIMM es probable:
Locator: PROC 1 DIMM 5FCPU # 0 Canal # 2_DIMM # 0 significa:
Editar:
Al hacer preguntas, siempre es mejor obtener más información ... Tener el fabricante y el modelo del servidor habría simplificado esto:
Aquí está el diagrama de memoria de las especificaciones rápidas HP ProLiant DL180 G6 :
Mi sugerencia de que el DIMM en la ranura de CPU # 1 es correcto ... Pero este es el hardware de HP. ¡No deberías necesitar adivinar!
Debería utilizar los agentes de administración de HP, ya que pueden alertar y proporcionar detalles específicos de la plataforma sobre el estado y el estado del hardware ...
fuente
PROC1 DIMM 5Fno tiene memoria ¿Entonces quiere decir que la ranura no está realmente confirmada? ¿Debo agregar un hp deb mirror e instalarhpamsclipara obtener el DIMM correcto?hp-health, yStatuses loN/Amismo que su salida pegada.hplog -vpara verificar las entradas en el registro de HP IML.