- Placa base: GA-B85M-DS3H-A
- CPU: Core i5 4430
- RAM: PNY XLR8 DDR3 32GB (4x8GB) 1600MHz (MD32768K4D3-1600-X9)
- Fuente de alimentación: EVGA 500 W1 80+
El problema
Con todos los 32 GB de RAM instalados, el sistema falla constantemente MemTest86 + 6.2. La falla siempre ocurre durante la primera pasada, y los errores aumentan rápidamente a millones de errores. Intentar ejecutar Windows da como resultado reinicios aleatorios y errores de detención (como se esperaría con los errores de RAM).
Lo que he probado
- Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM1. Completa con éxito 4 pases de MemTest.
- Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM2. Completa con éxito 4 pases de MemTest.
- Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM3. Completa con éxito 4 pases de MemTest.
- Pruebe un solo módulo PNY de 8 GB en el zócalo DIMM4. Completa con éxito 4 pases de MemTest.
- Pruebe los cuatro DIMM PNY de 8 GB por separado, individualmente, en el zócalo DIMM1. Todos los módulos completan con éxito 4 pases de MemTest.
- Pruebe dos módulos PNY de 8 GB en los zócalos DIMM1 y DIMM2. Completa con éxito 4 pases de MemTest.
- Pruebe dos módulos PNY de 8 GB en los zócalos DIMM3 y DIMM4. Completa con éxito 4 pases de MemTest.
- Pruebe la placa base con cuatro DIMM de 2 GB conocidos en todos los zócalos. Completa con éxito 4 pases de MemTest.
- Cambie el orden de los DIMM PNY en los zócalos. Sin cambios: aún se producen errores de MemTest.
- Eleve el voltaje de RAM de la placa base de 1.5v a 1.65V. Sin cambios: aún se producen errores de MemTest.
- Juegue con varias combinaciones de la configuración manual de RAM en la utilidad de configuración: habilitación / deshabilitación del perfil XMP, configuración del preajuste de "mayor estabilidad", etc. Sin cambios, aún se producen errores de MemTest.
Creo que puedo descartar con seguridad RAM defectuosa y sockets defectuosos de RAM. La única vez que las pruebas de MemTest fallan es si los cuatro módulos de 8GB se instalan simultáneamente.
He medido los voltajes que salen de la fuente de alimentación y todo parece estable, incluso con los cuatro palos instalados.
Mientras escribo esto, he probado una opción de último recurso para reducir manualmente la velocidad de RAM a 1066MHz en el BIOS. Hasta ahora, MemTest ha completado una pasada y está en la segunda sin errores. (Todas las pruebas anteriores se realizaron a la velocidad de RAM nativa de 1600MHz). Esto puede permitirme usar el sistema, aunque con velocidades de RAM ligeramente más lentas, pero esto no parece ser una solución permanente.
Cada vez que ocurren errores de MemTest, siempre ocurren en la misma posición exacta en el bus de direcciones de 64 bits:
Bit Error Mask: 00000000FF000000
Además, los errores NUNCA ocurren debajo de la barrera de 4GB. En otras palabras, todos los errores ocurren en el espacio de direcciones entre 4GB y 32GB.
Estoy deduciendo que esto es un tipo de interacción extraña o un problema de sincronización con la CPU y la RAM y la placa base, ya que los errores son muy consistentes, solo ocurren en una configuración específica, parecen mitigarse al desacelerar la RAM, y solo ocurre por encima de la barrera de 4GB. Mi pregunta es: ¿es más probable que mi CPU o mi placa base sean los culpables?
Tenía la intención de actualizar esta máquina a un Core i7-4790K, por lo que si la CPU es el culpable probable (sé que el controlador de memoria está en la CPU en estos modelos más nuevos), entonces funciona bien porque estoy planeando actualizar de todos modos, pero me pregunto si existe la posibilidad de que la placa base también sea parte del problema. es decir, no me gustaría gastar el dinero en la CPU i7 solo para experimentar exactamente el mismo problema y descubrir que también tengo que reemplazar la placa base ...
¿Consejo?
EDITAR: La velocidad de RAM más lenta aún produjo errores, pero solo una vez que la prueba alcanzó el tercer paso. Reinicié la prueba con solo una CPU activa solo para probar una interacción en la misma CPU.
fuente
Respuestas:
Esto no parece que ningún componente sea defectuoso, sino que está utilizando una combinación incompatible.
Tener múltiples sockets en el mismo bus de memoria poblado aumenta la capacitancia en cada línea de datos y ralentiza el tiempo de subida, lo que puede hacer que las transiciones lleguen tarde y se detecten erróneamente. Los ingenieros eléctricos conocen este fenómeno como "abanico".
Esto se complica aún más debido al despliegue interno de un módulo de memoria. El número y la topología de los dispositivos DRAM en el módulo, llamado "rango", afectarán cuántos módulos puede conectar con éxito en paralelo.
Las placas base de servidor que admiten muchos zócalos de memoria en realidad requieren memoria almacenada en búfer, que utiliza una red en cascada de búferes para limitar el despliegue (y, por lo tanto, la capacidad) que cada uno ve. Hay un retraso causado por los búferes, pero solo aumenta logarítmicamente con el número de cargas, mientras que para la memoria sin búfer la capacidad aumenta linealmente.
Wikipedia discute esto: https://en.wikipedia.org/wiki/Memory_rank
Algunos manuales de placas base en realidad llaman a este tipo de cosas. Para otros, puede deducir la información de las listas de compatibilidad de RAM. Como ejemplo, la placa base ASUS Z170-A muestra que el rango dual (llamado DS = doble cara en el manual) solo se puede usar en dos ranuras a la vez en ese tablero, a diferencia de la capacidad de usar cuatro DIMM de rango único a la vez .
fuente
Eso suena como un problema en el controlador de memoria integrado del procesador .
En los sistemas modernos, las placas base realmente no juegan un papel en la gestión de la memoria más allá de simplemente proporcionar una ruta entre los módulos de memoria y el procesador. La memoria está conectada directamente al procesador para minimizar la latencia; el " northbridge " que conecta la memoria al procesador en sistemas más antiguos ahora es parte del procesador mismo. (El firmware o PCH pueden controlar cómo el procesador ejecuta la RAM, pero no tiene sentido que cause errores de bits del tipo que usted describe, ya que en última instancia es responsabilidad del procesador). Por lo tanto, lo primero que hago es " d sospecha que en una situación como esta hay un IMC defectuoso.
De hecho, me sorprendería mucho si la placa base o el firmware del sistema fueran los culpables de los problemas que está experimentando.
fuente
Veo algunas malas críticas para el BIOS en esa placa base. Comenzaría buscando una actualización de BIOS. Nunca escatime en la placa base.
fuente
Es posible que la RAM también esté defectuosa, aunque parezca que no. Tuve un problema reciente con el servidor de mi casa que involucra un accidente fatal con un poco de té helado ...
Pasé por todo el proceso de reemplazar cada parte individualmente (2 CPU, mobo, fuente de alimentación y 2 bancos de 16 GB (2x8GB) RAM) y todo resultó bien cuando solo usé un solo banco de RAM con una sola CPU (excepto 1 CPU que estaba tostada).
No importaba qué configuración usara, siempre funcionaba cuando tenía una sola CPU y un banco de RAM (ya fuera de 16 GB o 32 GB de RAM), pero cuando puse la segunda CPU y dividí la RAM, entonces era de 16 GB por banco, el servidor no pudo arrancar.
No fue hasta que reemplacé un banco de RAM por completo que finalmente se inició y funcionó correctamente, y lo ha sido desde entonces.
tl; dr : Como dijo @moab en su comentario, nunca se puede saber con certeza hasta que pruebe todos los componentes de un sistema compatible
fuente