En /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Este es el edac
registro, uno de la memoria tiene ce
error.
He leído edac doc
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
y encuentra el canal de error:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
y debería ser mc0/csrow0/ch2
, como el documento, el DIMM debería ser DIMM_C0
, y puede ser encontrado por dmidecode
:
Pero no puedo encontrar este DIMM, así que no sé qué memoria tiene problemas:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Hay 12 ranuras y 9 ranuras tienen memoria.
Entonces, ¿cómo puedo saber qué memoria tiene problemas?
Suplemento:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
Ubuntu 12.04
, Kernel es3.10.20
Respuestas:
Su problema DIMM es probable:
Locator: PROC 1 DIMM 5F
CPU # 0 Canal # 2_DIMM # 0 significa:
Editar:
Al hacer preguntas, siempre es mejor obtener más información ... Tener el fabricante y el modelo del servidor habría simplificado esto:
Aquí está el diagrama de memoria de las especificaciones rápidas HP ProLiant DL180 G6 :
Mi sugerencia de que el DIMM en la ranura de CPU # 1 es correcto ... Pero este es el hardware de HP. ¡No deberías necesitar adivinar!
Debería utilizar los agentes de administración de HP, ya que pueden alertar y proporcionar detalles específicos de la plataforma sobre el estado y el estado del hardware ...
fuente
PROC1 DIMM 5F
no tiene memoria ¿Entonces quiere decir que la ranura no está realmente confirmada? ¿Debo agregar un hp deb mirror e instalarhpamscli
para obtener el DIMM correcto?hp-health
, yStatus
es loN/A
mismo que su salida pegada.hplog -v
para verificar las entradas en el registro de HP IML.