¿Es importante tener módulos de memoria ECC en un servidor no crítico?
Estaba pensando en conseguirme un servidor dedicado de juguete para muchas cosas aleatorias y no críticas. Los reinicios esporádicos no son gran cosa. Estoy buscando un proveedor, pero los precios son increíblemente baratos. Su hardware suena como una broma para cualquier servidor serio: procesadores de escritorio, RAM sin ECC, chasis sin nombre, sin disco duro SATA Hotswap, etc. (bueno, el precio lo justifica, supongo).
Doy por sentado la memoria ECC en cualquier servidor "serio", así que me pregunto si es un gran problema o no para los electrodomésticos "de juguete".
Respuestas:
Los datos publicados por el personal de TI del CERN ( Integridad de datos ) sugerirían que la cantidad de errores que proviene de la RAM es bastante baja. Aún debe sopesar sus datos y el costo del hardware.
Puedes leer un poco más sobre esto en StorageMojo .
fuente
La RAM ECC básicamente ayuda a prevenir errores que ocurren al leer y escribir desde la RAM. La posibilidad de que realmente haya un error es bastante pequeña, pero no nula. Diría que si no está haciendo cosas de misión crítica, podría escapar sin RAM ECC, como dije, las posibilidades de encontrar un error que evitaría ECC son muy, muy pequeñas.
fuente
¿Qué es un servidor no crítico? ¿Uno que puede fallar?
La RAM ECC es fundamental cuando la fiabilidad de la memoria es fundamental.
Dos cosas crecen con el crecimiento de los tamaños de memoria:
Esta presentación de inteligencia sobre ECC informa estos hechos:
Otra investigación reciente realizada por WISC muestra que ECC es esencial para estos sistemas ZFS:
Es importante tener en cuenta que otros sistemas de archivos son tan sensibles a esta forma de corrupción de datos como lo es ZFS.
ECC es lo que le evita encontrarse con estos problemas, cuando es posible, y en casos desastrosos, lo que le advierte sobre esto antes de que sea demasiado tarde.
fuente
Simplemente no es tan importante. Si necesitara un tiempo de actividad del 99.999%, se preocuparía por ello. Aparte de eso, reiniciarás con más frecuencia de lo que obtendrás errores de memoria.
fuente
Este estudio de Google de 2009 encontró una tasa de error entre 25000 y 70000 errores por billón de horas de dispositivo por megabit. Eso significa que para 8GiB de RAM (usada) hubo aproximadamente 1.7 a 4.8 errores por hora.
Los bitflips son algo que existe y no deben ignorarse tan pronto como la integridad de los datos sea importante.
En su caso (cosas aleatorias, no críticas) probablemente sería una exageración.
fuente