Las pruebas RAM son inconsistentes: ¿cuál es el culpable más probable? (es decir, en qué debería gastar dinero para reemplazar)

20
  • Placa base: GA-B85M-DS3H-A
  • CPU: Core i5 4430
  • RAM: PNY XLR8 DDR3 32GB (4x8GB) 1600MHz (MD32768K4D3-1600-X9)
  • Fuente de alimentación: EVGA 500 W1 80+

El problema

Con todos los 32 GB de RAM instalados, el sistema falla constantemente MemTest86 + 6.2. La falla siempre ocurre durante la primera pasada, y los errores aumentan rápidamente a millones de errores. Intentar ejecutar Windows da como resultado reinicios aleatorios y errores de detención (como se esperaría con los errores de RAM).

Lo que he probado

  • Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM1. Completa con éxito 4 pases de MemTest.
  • Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM2. Completa con éxito 4 pases de MemTest.
  • Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM3. Completa con éxito 4 pases de MemTest.
  • Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM4. Completa con éxito 4 pases de MemTest.
  • Pruebe los cuatro DIMM PNY de 8 GB por separado, individualmente, en el zócalo DIMM1. Todos los módulos completan con éxito 4 pases de MemTest.
  • Pruebe dos módulos PNY de 8 GB en los zócalos DIMM1 y DIMM2. Completa con éxito 4 pases de MemTest.
  • Pruebe dos módulos PNY de 8 GB en los zócalos DIMM3 y DIMM4. Completa con éxito 4 pases de MemTest.
  • Pruebe la placa base con cuatro DIMM de 2 GB conocidos en todos los zócalos. Completa con éxito 4 pases de MemTest.
  • Cambie el orden de los DIMM PNY en los zócalos. Sin cambios: aún se producen errores de MemTest.
  • Eleve el voltaje de RAM de la placa base de 1.5v a 1.65V. Sin cambios: aún se producen errores de MemTest.
  • Juegue con varias combinaciones de la configuración manual de RAM en la utilidad de configuración: habilitación / deshabilitación del perfil XMP, configuración del preajuste de "mayor estabilidad", etc. Sin cambios, aún se producen errores de MemTest.

Creo que puedo descartar con seguridad RAM defectuosa y sockets defectuosos de RAM. La única vez que las pruebas de MemTest fallan es si los cuatro módulos de 8GB se instalan simultáneamente.

He medido los voltajes que salen de la fuente de alimentación y todo parece estable, incluso con los cuatro palos instalados.

Mientras escribo esto, he probado una opción de último recurso para reducir manualmente la velocidad de RAM a 1066MHz en el BIOS. Hasta ahora, MemTest ha completado una pasada y está en la segunda sin errores. (Todas las pruebas anteriores se realizaron a la velocidad de RAM nativa de 1600MHz). Esto puede permitirme usar el sistema, aunque con velocidades de RAM ligeramente más lentas, pero esto no parece ser una solución permanente.

Cada vez que ocurren errores de MemTest, siempre ocurren en la misma posición exacta en el bus de direcciones de 64 bits:

Bit Error Mask: 00000000FF000000

Además, los errores NUNCA ocurren debajo de la barrera de 4GB. En otras palabras, todos los errores ocurren en el espacio de direcciones entre 4GB y 32GB.

Estoy deduciendo que esto es un tipo de interacción extraña o un problema de sincronización con la CPU y la RAM y la placa base, ya que los errores son muy consistentes, solo ocurren en una configuración específica, parecen mitigarse al desacelerar la RAM, y solo ocurre por encima de la barrera de 4GB. Mi pregunta es: ¿es más probable que mi CPU o mi placa base sean los culpables?

Tenía la intención de actualizar esta máquina a un Core i7-4790K, por lo que si la CPU es el culpable probable (sé que el controlador de memoria está en la CPU en estos modelos más nuevos), entonces funciona bien porque estoy planeando actualizar de todos modos, pero me pregunto si existe la posibilidad de que la placa base también sea parte del problema. es decir, no me gustaría gastar el dinero en la CPU i7 solo para experimentar exactamente el mismo problema y descubrir que también tengo que reemplazar la placa base ...

¿Consejo?


EDITAR: La velocidad de RAM más lenta aún produjo errores, pero solo una vez que la prueba alcanzó el tercer paso. Reinicié la prueba con solo una CPU activa solo para probar una interacción en la misma CPU.

fdmillion
fuente
La única forma de confirmar si se trata de memoria, mobo o cpu es probar ram en otro sistema compatible.
Moab
2
Si el problema no se mueve cuando mueve los chips de RAM, la placa base es tosser.
Joshua
1
Cuando ejecuta esta memoria en doble, o cuando tiene 4 módulos (8g), posiblemente podría quitarlo de SPD (automático) y ajustar un poco los tiempos y hacer que funcione. digamos que es 10,11,10,24 sintonícelo a 11,12,11,32 y pruebe así en su lugar. (sí, esto es adivinar) Si eso funciona al 100% sin parar, entonces es menos probable que sea un problema de calor o un problema de la placa base. Las personas con módulos 4x8gig han tenido problemas que usted describió anteriormente, si hay soporte de regulación de voltaje y la CPU no tiene pines doblados, puede ser una forma de hacer que las cosas que no están en la lista de compatibilidad funcionen. así que pruébalo y vuelve a contactarnos.
Psycogeek
2
"La velocidad de RAM más lenta aún produjo errores, pero solo una vez que la prueba alcanzó el tercer paso" ¿Durante todo esto está tomando medidas adicionales para probar el enfriamiento del ram? Incluso un ventilador adicional temporal o un ventilador externo que mueva el aire a través del ariete y sus elementos de regulación de voltaje pueden probar si el calor es uno de los problemas.
Psycogeek
@Psycogeek +1 por sugerir una modificación de tiempo. Algunos módulos de RAM no funcionan bien con otros en lo que respecta a los tiempos (incluso la misma marca o tipo de módulo). He tenido un problema similar al OP y lo resolví configurando los tiempos manualmente.
Amziraro

Respuestas:

18

Esto no parece que ningún componente sea defectuoso, sino que está utilizando una combinación incompatible.

Tener múltiples sockets en el mismo bus de memoria poblado aumenta la capacitancia en cada línea de datos y ralentiza el tiempo de subida, lo que puede hacer que las transiciones lleguen tarde y se detecten erróneamente. Los ingenieros eléctricos conocen este fenómeno como "abanico".

Esto se complica aún más debido al despliegue interno de un módulo de memoria. El número y la topología de los dispositivos DRAM en el módulo, llamado "rango", afectarán cuántos módulos puede conectar con éxito en paralelo.

Las placas base de servidor que admiten muchos zócalos de memoria en realidad requieren memoria almacenada en búfer, que utiliza una red en cascada de búferes para limitar el despliegue (y, por lo tanto, la capacidad) que cada uno ve. Hay un retraso causado por los búferes, pero solo aumenta logarítmicamente con el número de cargas, mientras que para la memoria sin búfer la capacidad aumenta linealmente.

Wikipedia discute esto: https://en.wikipedia.org/wiki/Memory_rank

Algunos manuales de placas base en realidad llaman a este tipo de cosas. Para otros, puede deducir la información de las listas de compatibilidad de RAM. Como ejemplo, la placa base ASUS Z170-A muestra que el rango dual (llamado DS = doble cara en el manual) solo se puede usar en dos ranuras a la vez en ese tablero, a diferencia de la capacidad de usar cuatro DIMM de rango único a la vez .

ingrese la descripción de la imagen aquí

Ben Voigt
fuente
Suponiendo que esta sea la causa del problema, ¿ayudaría apagar el SPD y ajustar la configuración de sincronización un poco más lento para compensar los tiempos de subida / caída más lentos?
Brhans
1
No estoy seguro de si esto es realmente correcto. Los procesadores Consumer Haswell generalmente admiten cuatro rangos de memoria por canal, lo cual es suficiente para permitir cuatro módulos de doble cara en dos canales de memoria. ¿Por qué sería este el problema? Esto tampoco parece explicar el hecho de que los problemas solo suceden por encima de la barrera de 4 GB. Además, el manual de la placa base indica que el chipset B85 subyacente admite 32 GB de memoria y no menciona ninguna limitación con respecto al número de rangos de memoria.
bwDraco
2
@bwDraco: Aunque el controlador de memoria está en la CPU, la placa base también es importante. El diseño de la PCB puede afectarlo, la coincidencia de longitud subóptima disminuirá el margen de fase en las señales (esta es también la razón por la cual los errores se correlacionan con ciertos bytes o posiciones de bits). Que el manual de la placa base no hable de rangos no significa que todas las combinaciones sean compatibles, solo significa que es un manual de basura que no entra en detalles.
Ben Voigt
1
@brhans: lo que importa no son los parámetros de tiempo, sino la frecuencia del reloj de memoria, porque el problema está en la transferencia entre la CPU y los DIMM, no interna a la DRAM. SPD generalmente tiene una serie de perfiles correspondientes a diferentes frecuencias de reloj, elegir uno diferente de estos sería mejor que ir completamente manual.
Ben Voigt
1
Definitivamente parece un problema de integridad de la señal de la placa base. Los módulos más grandes podrían tener una capacitancia más alta por pin que los módulos más pequeños, especialmente si los módulos en sí son de doble rango. Esto podría causar exactamente este problema cuando llena completamente los rangos. Es posible que un módulo tenga más de un rango. Por lo tanto, cuatro rangos por canal podrían ser fácilmente dos módulos de alta densidad de doble rango. Esto podría verse exacerbado por las características eléctricas y el enrutamiento de las trazas en la placa base. Mi sugerencia: intente con otra placa base.
alex.forencich
9

Eso suena como un problema en el controlador de memoria integrado del procesador .

En los sistemas modernos, las placas base realmente no juegan un papel en la gestión de la memoria más allá de simplemente proporcionar una ruta entre los módulos de memoria y el procesador. La memoria está conectada directamente al procesador para minimizar la latencia; el " northbridge " que conecta la memoria al procesador en sistemas más antiguos ahora es parte del procesador mismo. (El firmware o PCH pueden controlar cómo el procesador ejecuta la RAM, pero no tiene sentido que cause errores de bits del tipo que usted describe, ya que en última instancia es responsabilidad del procesador). Por lo tanto, lo primero que hago es " d sospecha que en una situación como esta hay un IMC defectuoso.

De hecho, me sorprendería mucho si la placa base o el firmware del sistema fueran los culpables de los problemas que está experimentando.

bwDraco
fuente
¿Qué pasa con un alfiler doblado?
Michael Hampton
66
@Michael: un pin doblado también provocaría fallas al probar módulos individuales.
Ben Voigt
4

Veo algunas malas críticas para el BIOS en esa placa base. Comenzaría buscando una actualización de BIOS. Nunca escatime en la placa base.

Atoadaso
fuente
BIOS es actual. Es cierto que la RAM no está en la lista "calificada", pero tiene los mismos tiempos que muchos otros módulos enumerados allí.
fdmillion
Buscaría reemplazar la placa base entonces. No tiene por qué ser de primera línea, solo comience con un rango de precios que pueda pagar y busque los que tengan más reseñas (léalos también). Aquellos con la mayor base de usuarios tienen muchas más probabilidades de tener soporte a largo plazo para las actualizaciones de BIOS y chipset.
Atoadaso
¿Has comprobado si esa placa base es capaz de manejar 32 GB de memoria a la vez correctamente? Además, puede encontrar el chip del administrador de memoria en la placa base y buscar cuánta memoria se espera que pueda manejar adecuadamente.
milesrf
1

Es posible que la RAM también esté defectuosa, aunque parezca que no. Tuve un problema reciente con el servidor de mi casa que involucra un accidente fatal con un poco de té helado ...

Pasé por todo el proceso de reemplazar cada parte individualmente (2 CPU, mobo, fuente de alimentación y 2 bancos de 16 GB (2x8GB) RAM) y todo resultó bien cuando solo usé un solo banco de RAM con una sola CPU (excepto 1 CPU que estaba tostada).

No importaba qué configuración usara, siempre funcionaba cuando tenía una sola CPU y un banco de RAM (ya fuera de 16 GB o 32 GB de RAM), pero cuando puse la segunda CPU y dividí la RAM, entonces era de 16 GB por banco, el servidor no pudo arrancar.

No fue hasta que reemplacé un banco de RAM por completo que finalmente se inició y funcionó correctamente, y lo ha sido desde entonces.

tl; dr : Como dijo @moab en su comentario, nunca se puede saber con certeza hasta que pruebe todos los componentes de un sistema compatible

Taegost
fuente