El puente EDAC perdió más de 6000 errores

0

He configurado dos nuevos servidores para la virtualización, y después de trabajar con ellos durante unas horas, noté muchos mensajes de error, comenzando al arrancar recibo un error que dice `Puente de EDAC: perdí 150 errores de memoria, después de unos minutos aparece a 6000 y subiendo. Comprobando / var / log / messages Veo que todos los errores son CE, lo que significa que se han corregido. Pero es normal? que tantos errores?

El sistema operativo es Centos 7 X64 La cantidad total de RAM es de 128 GB, Samsung ECC 16G X8. La placa base es asus x99-ws / ipmi La CPU es Intel Xeon E5-2699 V3

He intentado cambiar la RAM con nuevos palos listos para usar y sigue siendo el mismo.

Alex Zel
fuente
No es normal ... La alta CE a menudo es un signo de falla del hardware. Por lo general, la RAM, pero posiblemente el MC o una configuración incorrecta. ¿Ha examinado la estructura de directorios / sys / devices / system / edac / mc para ver qué controlador de memoria y fila CS (banco DIMM) está corrigiendo los errores? Esto podría darle una idea de kernel.org/doc/Documentation/edac.txt
acejavelin

Respuestas:

0

Encontró el problema, era la fuente de alimentación, después de cambiar a una marca diferente, todos los mensajes de error se detuvieron. Otro problema que no noté fue que solo 6 si se identificaron los 8 bastones, esto también se solucionó con una nueva PSU.

Alex Zel
fuente
Aunque esto resolvió el problema, no responde las preguntas "Comprobando / var / log / messages. Veo que todos los errores son CE, lo que significa que se han corregido. ¿Pero es normal? ¿Cuántos errores?"
acejavelin