¿Qué cuenta como un conjunto de incursiones "grandes"

11

Un problema reciente con un Buffalo TeraStation NAS aquí en mi oficina me ha llevado a investigar Raid 5.

He encontrado algunos artículos diferentes que hablan sobre la inadecuación del uso de la incursión 5 en matrices grandes o con discos grandes

Aquí hay un artículo de ejemplo que habla sobre problemas con la reconstrucción de una matriz con unidades de consumo grandes.

Estoy tratando de resolver lo que cuenta como 'grande'?

El NAS que tenemos aquí es una configuración Raid 5 de 4 unidades, cada unidad tiene 1 TB. Una unidad falló y ha sido reemplazada, la matriz se está reconstruyendo actualmente.

¿Esta configuración es tan grande, en términos de que probablemente tendrá un problema durante la reconstrucción?

¿Qué tan confiable es esta configuración para el uso diario?

Robar
fuente
2
Dada la carga habitual del sistema, ¿cuánto tiempo espera el controlador que demore la reconstrucción? ¿Cuál es el MTBF de los discos duros? Si tiene esos dos números, conoce la posibilidad de una segunda falla catastrófica durante la reconstrucción de RAID. Tenga en cuenta que los discos duros están más estresados ​​durante la reconstrucción, por lo que el resultado anterior subestimará la posibilidad de doble falla.
MadHatter
3
Como comentario, sabes que RAID no es una copia de seguridad, ¿verdad?
cjc
55
@cjc, ¿agrega esa perla de sabiduría a cada pregunta RAID en SF, o algo acerca de esto le hace pensar que el OP piensa que RAID es una copia de seguridad?
BlueCompute
Sí, soy consciente de eso. Todo está respaldado, solo quería la molestia de tener que restaurarlo todo porque la matriz de incursiones no se reparó correctamente.
Rob

Respuestas:

18

Diseño de la confiabilidad de una matriz de discos:

  1. Encuentre la tasa de URE de su unidad (a los fabricantes no les gusta hablar sobre el fallo de sus unidades, por lo que es posible que tenga que cavar para encontrar esto. Debería ser 1/10 ^ X donde X es alrededor de 12-18 comúnmente).
  2. Decida cuál es una tasa de riesgo aceptable para sus necesidades de almacenamiento †. Por lo general, esto es <0.5% de probabilidad de falla, pero podría ser de varios por ciento en un almacenamiento "reutilizable" y podría ser <0.1 para datos críticos.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Para arreglos con más de un disco de paridad o espejos con más de un par de discos en el espejo, cambie 1el número de discos después de Drives in Array por el número de discos con paridad / espejo.

Así que tengo un conjunto de cuatro unidades WD Green de 1TB en una matriz. Tienen una tasa de URE de 1/10 ^ 14. Y los uso como almacenamiento desde cero. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%riesgo de falla al reconstruir la matriz después de que una unidad muere. Estos son excelentes para almacenar mi basura, pero no estoy poniendo datos críticos allí.

† Determinar una falla aceptable es un proceso largo y complicado. Se puede resumir como Budget = Risk * Cost. Entonces, si una falla va a costar $ 100 y tiene un 10% de posibilidades de que ocurra, entonces debe tener un presupuesto de $ 10 para evitarla. Esto simplifica enormemente la tarea de determinar el riesgo, los costos de varias fallas y la naturaleza de las posibles técnicas de prevención, pero se entiende la idea. [Data Drives] = [Total Drives] - [Parity Drives]. Un espejo de dos discos (RAID1) y RAID5 tiene 1 unidad de paridad. Un espejo de tres discos (RAID1) y RAID6 tiene 2 unidades de paridad. Es posible tener más unidades de paridad con RAID1 y / o esquemas personalizados, pero atípicos.


Sin embargo, esta ecuación estadística viene con sus advertencias:

  • Esa tasa de URE es la tasa anunciada y generalmente es mejor en la mayoría de las unidades que salen de la línea de ensamblaje. Es posible que tenga suerte y compre una unidad que sea mucho mejor de lo anunciado. Del mismo modo, podría obtener un impulso que muere de mortalidad infantil.
  • Algunas líneas de fabricación tienen malas ejecuciones (donde muchos discos en la ejecución fallan al mismo tiempo), por lo que obtener discos de diferentes lotes de fabricación ayuda a distribuir la probabilidad de fallas simultáneas.
  • Los discos más viejos tienen más probabilidades de morir bajo el estrés de una reconstrucción.
  • Los factores ambientales tienen un costo:
    • Los discos que se ciclan con calor comúnmente tienen más probabilidades de morir (por ejemplo, encenderlos / apagarlos regularmente).
    • La vibración puede causar todo tipo de problemas: vea el video en YouTube de TI gritando en una matriz de discos .
  • "Hay tres tipos de mentiras: mentiras, malditas mentiras y estadísticas" - Benjamin Disraeli
Chris S
fuente
La unidad que saqué / saqué del dispositivo es una unidad Samsung HD103SI de 1 TB. Creo que las otras tres unidades restantes son iguales. La unidad de reemplazo es de un fabricante diferente, no tengo los detalles a mano.
Rob
Parece que la velocidad de esta unidad es 1/10 ^ 15 de acuerdo con esto: - comx-computers.co.za/HD103SI-specifications-28474.htm
Rob
1
Acabo de corregir las ecuaciones, el ejemplo era correcto, ahora ambos lo son. Su matriz sería 1-(1-1099511627776*0.000000000000001)^3=> 0.00329. Tiene un soporte en el exterior del lugar ^3donde debería estar en el interior; y debería haber un cero más en esa cosa de 1/10 ^ 15.
Chris S
2
Una unidad de 1TB tendría 1000000000000 bytes, por lo que funciona un poco menos del 3% | 0.3% dependiendo de su tasa de URE.
user9517
1
@IanRingrose Esto es estadísticamente válido. Ya abordé sus preocupaciones específicas. ¿Tiene algo relevante que agregar además de lo que ya se ha indicado?
Chris S
9

La razón por la que existe este artículo es para llamar la atención sobre las tasas de error de bit irrecuperables en los discos duros. Específicamente, sus discos baratos de 'PC para el hogar'. Por lo general, tienen una especificación de fábrica de 1/10 ^ 14. Esto es aproximadamente 12.5TB de datos, que si está haciendo un RAID-5 con discos de 2TB ... golpea bastante rápido.

Esto significa que debes:

  • use grupos RAID más pequeños y acepte más espacio desperdiciado.
  • Use RAID-6 y acepte la penalización de escritura adicional. (50% más alto que RAID5)
  • Compre discos más caros: 'grado de servidor' tiene una especificación UBER de 1/10 ^ 16, lo que significa que este es un punto discutible. (1.2PB es mejor que 12.5TB)

Por lo general, sugeriría que RAID-6 es el camino a seguir en general, pero le costará rendimiento.

Sobrique
fuente