La importancia de la memoria ECC

11

¿Es importante tener módulos de memoria ECC en un servidor no crítico?

Estaba pensando en conseguirme un servidor dedicado de juguete para muchas cosas aleatorias y no críticas. Los reinicios esporádicos no son gran cosa. Estoy buscando un proveedor, pero los precios son increíblemente baratos. Su hardware suena como una broma para cualquier servidor serio: procesadores de escritorio, RAM sin ECC, chasis sin nombre, sin disco duro SATA Hotswap, etc. (bueno, el precio lo justifica, supongo).

Doy por sentado la memoria ECC en cualquier servidor "serio", así que me pregunto si es un gran problema o no para los electrodomésticos "de juguete".

PJK
fuente
3
Usted cuestiona la memoria ECC pero parece feliz de usar unidades SATA. Muy extraño.
John Gardeniers
3
@JohnGardeniers Ya ves, incluso si eso significa un HDD muerto una vez al año, no me importan unas pocas horas de inactividad y recuperación de incursiones. Pero tener problemas diarios / semanales sería molesto. Sí, en realidad estoy más preocupado por mi tiempo libre que por mi tiempo de actividad en este caso ...
PJK
66
@JohnGardeniers: las unidades SATA no son más confiables que los discos duros SCSI / SAS: usenix.org/event/fast07/tech/schroeder/schroeder.pdf
Hubert Kario

Respuestas:

11

Los datos publicados por el personal de TI del CERN ( Integridad de datos ) sugerirían que la cantidad de errores que proviene de la RAM es bastante baja. Aún debe sopesar sus datos y el costo del hardware.

Puedes leer un poco más sobre esto en StorageMojo .

Hubert Kario
fuente
10

La RAM ECC básicamente ayuda a prevenir errores que ocurren al leer y escribir desde la RAM. La posibilidad de que realmente haya un error es bastante pequeña, pero no nula. Diría que si no está haciendo cosas de misión crítica, podría escapar sin RAM ECC, como dije, las posibilidades de encontrar un error que evitaría ECC son muy, muy pequeñas.

BenGC
fuente
6

¿Qué es un servidor no crítico? ¿Uno que puede fallar?

La RAM ECC es fundamental cuando la fiabilidad de la memoria es fundamental.

Dos cosas crecen con el crecimiento de los tamaños de memoria:

  • la dependencia del software en la memoria, esp. software de servidor (por ejemplo, almacenamiento en caché)
  • la probabilidad de error de memoria (p = num_bits * p_bit_failure)

Esta presentación de inteligencia sobre ECC informa estos hechos:

  • La tasa promedio de error de memoria para un servidor con 4 GB de memoria funcionando 24x7 es 150 veces al año
  • ~ 4000 errores corregibles por módulo de memoria por año
  • El overclocking y la antigüedad del sistema aumentan enormemente las tasas de falla
  • Las fallas recurrentes son comunes y ocurren rápidamente (el 97% ocurre dentro de los 10 días posteriores a la primera falla) => efecto de avalancha
  • Para un servidor ECC con una vida útil de 3 a 5 años, la posibilidad de falla del sistema de error de memoria no corregible es inferior al 0.001%

Otra investigación reciente realizada por WISC muestra que ECC es esencial para estos sistemas ZFS:

ZFS no tiene precauciones para la corrupción de la memoria: los bloques de datos defectuosos se devuelven al usuario o se escriben en el disco, las operaciones del sistema de archivos fallan y muchas veces todo el sistema se bloquea.

Es importante tener en cuenta que otros sistemas de archivos son tan sensibles a esta forma de corrupción de datos como lo es ZFS.

ECC es lo que le evita encontrarse con estos problemas, cuando es posible, y en casos desastrosos, lo que le advierte sobre esto antes de que sea demasiado tarde.

michele
fuente
1

Simplemente no es tan importante. Si necesitara un tiempo de actividad del 99.999%, se preocuparía por ello. Aparte de eso, reiniciarás con más frecuencia de lo que obtendrás errores de memoria.

Jim B
fuente
1

Este estudio de Google de 2009 encontró una tasa de error entre 25000 y 70000 errores por billón de horas de dispositivo por megabit. Eso significa que para 8GiB de RAM (usada) hubo aproximadamente 1.7 a 4.8 errores por hora.

Los bitflips son algo que existe y no deben ignorarse tan pronto como la integridad de los datos sea importante.

En su caso (cosas aleatorias, no críticas) probablemente sería una exageración.

bl4x1
fuente