¿Los sistemas RAID 5 son adecuados para discos de mayor tamaño? [cerrado]

1

¿Por qué generalmente se considera que los sistemas RAID 5 no son adecuados para discos de mayor tamaño? ¿Es lo mismo cierto para RAID 6?

Referencia: http://www.zdnet.com/article/why-raid-5-stops-working-in-2009/

Antonio
fuente
¿Cuándo crees que ese artículo fue escrito si predecía problemas en 2009?
Jason Aller
@JasonAller El artículo fue escrito a mediados de 2007, que dice junto con el título del autor. El hecho de que el titular esté ligeramente en el lado dramático (RAID 5 apenas "dejó de funcionar") el artículo hace un punto válido.
un CVn

Respuestas:

4

La razón por la cual RAID 5 podría no ser confiable para discos de gran tamaño es que, estadísticamente, los dispositivos de almacenamiento (incluso cuando funcionan normalmente) no son inmunes a los errores. Esto es lo que se denomina UBE (a veces URE), para tasa de error de bit irrecuperable , y se cita en errores de sector completo por número de bytes leídos. Para las unidades de disco duro giratorio del consumidor, esta métrica normalmente se especifica en 10 ^ -14, lo que significa que obtendrá una lectura de sector fallida por cada 10 ^ 14 bytes de lectura. (Debido a cómo funcionan los exponentes, 10 ^ -14 es lo mismo que uno por 10 ^ 14).

10 ^ 14 bytes pueden sonar como un gran número, pero en realidad son solo un puñado de pases de lectura completa sobre una unidad moderna grande (digamos 4-6 TB). Con RAID 5, cuando falla una unidad, no existe ninguna redundancia en absoluto, lo que significa que cualquier error es no corregible: ningún problema al leer cualquier cosa de cualquiera de las otras unidades, y el controlador (ya sea hardware o software) no sabrán qué que hacer. En ese punto, su matriz se descompone.

Lo que RAID 6 hace es agregar un segundo disco de redundancia a la ecuación. Esto significa que incluso si una unidad falla por completo, RAID 6 puede tolerar un error de lectura en una de las otras unidades de la matriz al mismo tiempo, y aún así reconstruir con éxito sus datos. Esto reduce drásticamente la probabilidad de que un solo problema haga que sus datos no estén disponibles, aunque no elimina la posibilidad; en el caso de que una unidad haya fallado, en lugar de que una unidad adicional necesite desarrollar un problema para que los datos sean irrecuperables, ahora dos unidades adicionales necesitan desarrollar un problema en el mismo sector para que haya un problema.

Por supuesto, esa cifra de 10 ^ -14 es estadística , de la misma manera que los discos duros rotativos comúnmente tienen una AFR estadística (tasa de falla anual) del orden del 2.5%. Lo que significaría que la unidad promedio debería durar de 20 a 40 años; claramente no es el caso. Los errores tienden a ocurrir en lotes; es posible que pueda leer 10 ^ 16 o 10 ^ 17 bytes sin ningún signo de problema, y ​​luego obtendrá docenas o cientos de errores de lectura en poco tiempo.

RAID en realidad hace que este último problema es peor por exposición de las unidades a las cargas de trabajo muy similares y el medio ambiente (temperatura, vibración, las impurezas de energía, etc.). La situación empeora aún más por el hecho de que muchas matrices RAID se ponen en servicio y se configuran como un grupo, lo que significa que para cuando ocurra la primera falla, todas las unidades en la matriz habrán estado activas durante casi la misma cantidad de tiempo. Todo esto hace que las fallas correlacionadas sean mucho más probables: cuando falla una unidad, es muy probable que las unidades adicionales sean marginales y puedan fallar pronto. Simplemente el estrés del paso de lectura completo junto con la actividad normal del usuario puede ser suficiente para hacer que una unidad adicional falle. Como vimos, con RAID 5, con una unidad no funcional,cualquier error de lectura en cualquier otro lugar causará un error permanente y es muy probable que simplemente detenga su matriz. Con RAID 6, al menos tiene un margen para errores adicionales durante el proceso de recuperación.

Debido a que el UBE se establece según el número de bytes leídos, y el número de bytes leídos tiende a correlacionarse bastante bien con la cantidad de bytes que se pueden almacenar, lo que solía ser una buena configuración con un conjunto de unidades de 100 MB podría ser una configuración marginal con un conjunto de unidades de 1 TB y puede ser completamente poco realista con un conjunto de unidades de 4-6 TB, incluso si el número físico de unidades sigue siendo el mismo. (En otras palabras, diez unidades de 100 MB frente a diez unidades de 6 TB).

Es por eso que RAID 5 generalmente no se considera adecuado para matrices de tamaños comunes hoy en día, y dependiendo de las necesidades específicas, generalmente se recomienda RAID 6 o 1 + 0.

Y eso ni siquiera toca el detalle de que RAID no es una copia de seguridad .

un CVn
fuente
2

Ver CALCULADOR DE DISCO RAID Y IOPS y Una explicación de IOPS y latencia

Para el cálculo del fallo RAID, puede usar fórmulas.

  • N es el número de HDD,
  • p - la probabilidad de falla
  • q = (1-p) - fiabilidad.

La suposición de que la probabilidad de falla del HDD es igual.

Para mayor claridad, la probabilidad de falla de diferentes RAID a los 5 años de trabajo y después en la tabla.

RAID0 RAID5 RAID6 RAID10 RAID probabilidad de falla fórmula

La probabilidad de falla es la falla RAID DP (Synology) de RAID 6. Uso p: confiabilidad de la búsqueda del centro de datos de Google.

RAID0 RAID5 RAID6 RAID10 RAID diagrama de probabilidad de falla

La probabilidad del procedimiento de recuperación de fallas RAID 5, dependiendo de la capacidad. La probabilidad del procedimiento de recuperación de fallas RAID 5, dependiendo de la capacidad

STTR
fuente
1

Responde a tu primera pregunta. URE Error de lectura irrecuperable. El disco puede estar bien, pero los datos no se pueden leer evitando la reconstrucción, que es lo mismo al final que un disco fallido en términos de una reconstrucción. Pensé que el artículo daba la información adecuada en un nivel básico.

Responde a tu segunda pregunta. Lo mismo es cierto para RAID 6 pero para matrices más grandes. Creo que el punto era que si le preocupa una URE para una matriz de 12 TB porque una especificación dice que tendrá 1 URE por cada 12 TB, entonces necesita un disco redundante adicional por cada 12 TB adicionales de tamaño para manejar todas las URE que debe esperar encontrar.

Es decir, la reconstrucción RAID 5 de 12 TB tiene la misma probabilidad de falla (por una tasa de URE de 10 ^ 14) que una matriz RAID 6 de 24 TB. Nuevamente, esto se extrapola en el artículo.

Damon
fuente
0

El motivo es el tiempo de recuperación. A partir de la media. 2 TB de tamaño, el tiempo de recuperación puede ser muy grande y la probabilidad de falla en el período de recuperación aumenta mucho. Con RAID6 puede recuperarse de la falla de dos discos, pero con el aumento del tamaño de los discos, 6 puede alcanzar el mismo problema.

Romeo Ninov
fuente
0

El razonamiento de UBE descrito en las otras respuestas es lo suficientemente bueno, pero una preocupación mayor es el riesgo de una segunda falla de la unidad durante la reconstrucción.

Recuerde que mientras se reconstruye la matriz, los discos funcionan con una carga del 100% y, dado el tamaño de los discos modernos, la reconstrucción puede llevar días. A menos que los discos sean de grado empresarial, en realidad no les va a gustar esto. Esta es la razón principal por la que RAID5 no es adecuado para discos de mayor tamaño.

También debe tener en cuenta que cuando las personas ensamblan matrices de discos, generalmente solicitan los discos a un único proveedor. Esto significa que todos los discos de la matriz serán del mismo lote de fabricación. Si se trata de un lote incorrecto, esto puede significar una vida útil reducida, una confiabilidad reducida o incluso la falla de varias unidades en un corto período de tiempo. Incluso si no es un lote malo, si las unidades comienzan a llegar al final de su vida útil, existe una mayor probabilidad de que varias unidades fallen en un corto tiempo de diferencia. Es una práctica recomendada al crear una matriz para dividir el pedido en varios proveedores, o pedirle a un único proveedor que le envíe discos de diferentes lotes si es posible. De esta manera, es más probable que las unidades mueran en diferentes momentos, y es poco probable que obtenga varias unidades de un lote defectuoso. Los retiros suceden.

Mira en RAIDZ. Es genial. Específicamente, mire RAIDZ3 y RAIDZ anidado. Synology tiene algo llamado SynologyHybrid Raid, que tiene algunos beneficios realmente agradables. Puede actualizar los tamaños de unidad en su matriz simplemente reemplazando una unidad a la vez y esperando a que se completen las reconstrucciones, por ejemplo.

Alex Atkinson
fuente
RAIDZ es agradable, pero está 100% vinculado a ZFS y, por lo tanto, solo está disponible en plataformas donde está disponible ZFS, lo que lo limita a algunos sabores de * nix. Particularmente, Windows está completamente fuera. Si bien puede ejecutar ZFS sin usar RAIDZ, no puede usar RAIDZ sin ZFS. (Además, ¿Has leído mi respuesta menciono la mayor parte de las cosas que se discuten en la tuya?.)
un CVn