Teniendo en cuenta el hecho de que muchos sistemas de clase de servidor están equipados con RAM ECC , ¿es necesario o útil grabar los DIMM de memoria antes de su implementación?
Me encontré con un entorno en el que toda la RAM del servidor se coloca a través de un largo proceso de quemado / prueba de esfuerzo. Esto ha retrasado las implementaciones del sistema en ocasiones y afecta el tiempo de entrega del hardware.
El hardware del servidor es principalmente Supermicro , por lo que la RAM proviene de una variedad de proveedores; no directamente del fabricante, como Dell Poweredge o HP ProLiant .
¿Es este un ejercicio útil? En mi experiencia pasada, simplemente utilicé la RAM del proveedor fuera de la caja. ¿No deberían las pruebas de memoria POST capturar la memoria DOA? Respondí a los errores de ECC mucho antes de que un DIMM realmente fallara, ya que los umbrales de ECC generalmente eran el disparador para la colocación de la garantía.
- ¿Quemas tu RAM?
- Si es así, ¿qué método (s) utiliza para realizar las pruebas?
- ¿Ha identificado algún problema antes de la implementación?
- ¿El proceso de quemado ha resultado en una estabilidad adicional de la plataforma en lugar de no realizar ese paso?
- ¿Qué haces al agregar RAM a un servidor en ejecución existente?
fuente
No.
El objetivo de grabar en hardware es enfatizarlo hasta el punto de catalizar una falla en un componente.
Hacer esto con discos duros mecánicos obtendrá algunos resultados, pero no va a hacer mucho por la RAM. La naturaleza del componente es tal que los factores ambientales y la edad tienen muchas más probabilidades de ser la causa de fallas que la lectura y escritura en la RAM (incluso en su ancho de banda máximo durante unas pocas horas o días).
Suponiendo que su RAM es de una calidad lo suficientemente alta como para que la soldadura no se derrita la primera vez que realmente comienza a usarla, un proceso de quemado no lo ayudará a encontrar defectos.
fuente
Compramos blades y, en general, compramos un bloque razonablemente grande de ellos a la vez, por lo que los instalamos e instalamos durante DÍAS antes de que nuestros puertos de red estén listos / seguros. Por lo tanto, usamos ese tiempo para usar memtest durante aproximadamente 24 horas, a veces más si dura un fin de semana; una vez hecho esto, pulverizamos el ESXi básico e IP está listo para que se aplique su perfil de host una vez que la red está activa. Así que sí, lo probamos, más por oportunidad que por necesidad, pero ha detectado algunos DIMM DOA antes, y no soy yo quien lo hace físicamente, así que no me cuesta ningún esfuerzo. Estoy a favor
fuente
Bueno, supongo que depende exactamente de cuáles sean sus procesos. SIEMPRE ejecuto MemTest86 en la memoria antes de ponerlo en un sistema (servidor o no). Después de tener un sistema en funcionamiento, los problemas causados por una memoria defectuosa pueden ser difíciles de solucionar.
En cuanto a "prueba de esfuerzo" en realidad la memoria; Todavía tengo que ver por qué esto sería útil a menos que esté probando para fines de overclocking.
fuente
No, pero he visto personas que sí. Sin embargo, nunca los vi ganar nada de eso, creo que tal vez sea una resaca o una superstición.
Personalmente, soy como tú en que las tasas de error de ECC son más útiles para mí, suponiendo que la RAM no sea DOA, pero de todos modos lo sabrías.
fuente
Para ram no ECC, ejecutar 30 minutos en memtest86 + es útil ya que generalmente no hay un método confiable para detectar errores de bit cuando el sistema está en ejecución.
La revisión azul no se considera un método confiable ...
Y la RAM ligeramente escamosa a menudo no se muestra de inmediato, solo después de que el sistema ha visto una carga de memoria completa y luego solo si los datos en esa RAM fueron el código que se usó y Luego se estrelló. La corrupción de datos puede pasar desapercibida durante largos períodos de tiempo.
Para ECC ram no hará nada que el controlador de memoria no hará, por lo que realmente no tiene sentido. Es solo una pérdida de tiempo.
En mi experiencia, las personas que insisten en quemar son usualmente viejos que siempre lo han hecho así y que lo siguen haciendo por costumbre sin pensar realmente que las cosas son ciertas.
O son jóvenes que siguen el procedimiento prescrito escrito por esos viejos.
fuente
Depende.
Si está implementando 50 000 nuevas RAM, y sabe que este hardware en particular tiene una tasa de falla del 0.01% después de operar menos de un día, estadísticamente hablando habrá varios de ellos que fallarán en su primer día. Quemarse para atrapar eso. Con implementaciones en esa escala, se espera un fracaso, no una situación excepcional.
Sin embargo, si está desplegando solo un par de cientos de elementos, es muy probable que las estadísticas estén de su lado, ya que debe ser bastante desafortunado para obtener piezas fallidas.
fuente