¿Debo usar "Raid 5 + spare" o "Raid 6"?

12

¿Qué es "Raid 5 + Spare" (extracto del Manual del usuario, sección 4.17.2, P.54 ):

RAID5 + Spare: RAID 5 + Spare es una matriz RAID 5 en la que se usa un disco como repuesto para reconstruir el sistema tan pronto como falla un disco (Fig. 79). Se requieren al menos cuatro discos. Si falla un disco físico, los datos permanecen disponibles porque se leen desde los bloques de paridad. Los datos de un disco fallido se reconstruyen en el disco de repuesto dinámico. Cuando se reemplaza un disco fallido, el reemplazo se convierte en el nuevo repuesto dinámico. No se pierden datos en el caso de una falla de un solo disco, pero si falla un segundo disco antes de que el sistema pueda reconstruir los datos en el repuesto dinámico, se perderán todos los datos de la matriz.


¿Qué es "Raid 6" (extracto del Manual del usuario, sección 4.17.2, P.54 ):

RAID6: en RAID 6, los datos se dividen en todos los discos (mínimo de cuatro) y se escriben dos bloques de paridad para cada bloque de datos (p y q en la Fig. 80) en la misma banda. Si falla un disco físico, los datos del disco fallido se pueden reconstruir en un disco de reemplazo. Este modo Raid puede soportar hasta dos fallas de disco sin pérdida de datos. RAID 6 proporciona una reconstrucción más rápida de datos de un disco fallido.


Tanto "Raid 5 + spare" como "Raid 6" son TAN similares ... No puedo notar la diferencia.

¿Cuándo sería óptimo "Raid 5 + Spare"?

¿Y cuándo "Raid 6" sería óptimo "?

El manual simplifica las diferentes incursiones con 5 estrellas. "Raid 5 + Spare" solo obtiene 4 estrellas, pero "Raid 6" obtiene 5 estrellas. Si confiara ciegamente en el manual, concluiría que "Raid 6" siempre es mejor. ¿Es "Raid 6" siempre mejor?

Trevor Boyd Smith
fuente
1
ServerFault tiene una buena discusión sobre esto.
Brian
1
Lo que sea que termines haciendo, solo ataca con un controlador de incursión, no con el controlador suave incorporado que viene con tu mobo. Si tu mobo se apaga, estás pidiendo problemas.
sound2man
La incursión está siendo desactivada por un controlador de hardware (jaja, he escuchado demasiadas cosas contra los controladores de incursión de software).
Trevor Boyd Smith el

Respuestas:

17

En breve:

  • Si la seguridad es su principal preocupación, vaya con RAID6, ya que puede sobrevivir a dos unidades que fallan al mismo tiempo. Si una unidad falla en una disposición de repuesto R5 +, no estará a salvo de otra falla hasta que se haya alcanzado la velocidad de repuesto, lo que podría llevar bastante tiempo con unidades grandes (y no es desconocido para una unidad que se ha apagado durante años, como su repuesto, para no girar cuando finalmente se le solicite).

  • Si el rendimiento es el rey, vaya con 5 + repuesto ya que el rendimiento de escritura será mejor cuando la matriz no esté en un estado degradado, aunque la diferencia de rendimiento entre R5 y R6 es significativamente menor que la diferencia entre R5 y otras soluciones si tiene un buen controlador (es decir, una vez que realiza una operación de escritura de bloque parcial "dos / tres lecturas concurrentes luego paridad calculada luego dos / tres escrituras concurrentes" la mayor parte del tiempo en lugar de "leer-luego-leer (-entonces-leer) -entonces-paridad -calc-then-write-then-write (-then-write) ", que es lo que pueden hacer algunos controladores y software RAID muy baratos.

Editar: Perdí un punto potencialmente importante la primera vez:

  • Si el consumo de energía es una preocupación, entonces R5 + repuesto tendrá una ventaja adicional si su controlador mantiene la unidad de repuesto apagada hasta que sea necesario.
David Spillett
fuente
Muy bien escrito / conciso. (Enuncia las ventajas / desventajas obvias en las dos primeras palabras de cada punto ... muy, muy bueno).
Trevor Boyd Smith el
Sería curioso saber cuándo, si acaso, el consumo de energía de una sola unidad adicional es realmente va a ser una "preocupación" en comparación con todo lo demás en el centro de datos / sala de servidores / etc
Warren
Una sola unidad en una sola máquina, probablemente no. Pero en Colorado, donde obtienes amplificadores X por rack y pagas mucho por cualquier exceso (o el exceso simplemente no está permitido, a veces si te pasas te oscureces), podría ser notable. La energía "consumida" también es un doble golpe: se convierte en ruido y calor y terminas necesitando más energía para alejar el calor. Y para una jaula completa o un conjunto de kit más grande, el consumo total de una unidad adicional por unidad de cómputo pronto se suma a algo que un contador suficientemente exigente podría notar.
David Spillett el
7

RAID 5 + repuesto en caliente:

  • en hardware de controlador igual mejor rendimiento que RAID 6
  • no puedes perder 2 discos al mismo tiempo . cuando pierde un disco, hay un tiempo de reconstrucción (con el repuesto dinámico) en el que no tiene redundancia . Cualquier cosa que falle en este momento crea una pérdida completa ( salvo enviar todo a una buena empresa de protección de datos y pagar realmente $$$$)

RAID 6:

  • peor rendimiento que RAID 5 (dependiendo del controlador, puede variar desde muy notable hasta prácticamente ninguna diferencia)
  • puedes perder 2 discos al mismo tiempo

Para cualquier RAID 5 o 6, debe tener cuidado de usar discos que no sean de la misma ejecución de producción. Puede suceder (¡lo he visto!) Que después de un solo error al reconstruir, los siguientes discos fallan debido al aumento del estrés. Los discos de la misma ejecución tienen exactamente el mismo firmware y probablemente propiedades físicas muy similares.

Editar: qué elegir

(Esto también depende de los requisitos de rendimiento del servidor y del riesgo tolerable).

Si el entorno de los servidores es bastante agradable para el hardware (colo, climatizado, etc.), estará bien con RAID5 + repuesto dinámico.

Si el entorno hace que sea más probable que falle más de un disco en poco tiempo (vibraciones, humedad, suciedad), vaya a RAID 6.

Siempre tenga también una copia de seguridad y recuperación de prueba adecuadas .

Edición 2: los controladores RAID decentes tienen depuración , que verifica periódicamente todos los sectores.

knitti
fuente
+1 para "tener una copia de seguridad y recuperación de prueba adecuadas". Eso es lo PRIMERO que todos deberían tener antes de comenzar a preocuparse por los niveles de RAID.
Warren
3

RAID5 usa una franja de paridad. Es necesario calcular la corrección de errores de Reed Solomon y escribir dos franjas para RAID6 frente a una para RAID5. RAID5 se utiliza para aplicaciones de bases de datos intensas donde el almacenamiento es enorme debido al costo de RAID10. El costo de RAID5 varía de 67% a 94% de disponibilidad de disco donde RAID10 es 50% (costos de almacenamiento mucho más altos) Mientras que RAID6 tiene una latencia de lectura menor en una cantidad muy pequeña debido a la latencia rotacional, RAID6 es entre 25 y 31% más lento en las escrituras debido a El cálculo de la corrección de errores y la escritura adicional del bit de paridad.

Usando el tiempo medio entre fallas (MTBF) para las unidades, la probabilidad de que dos unidades fallen una tras otra o al mismo tiempo es aproximadamente (0.1% x 0.1%)*12o 0.001 x 0.001 * 12; Si tiene 1000 unidades en funcionamiento, tendrá una pérdida promedio de ~ 1.2 unidades por año. Dos unidades fallarán una después de la otra aproximadamente cada 8.3 años. Ahora, debido a que la falla de la unidad no es una distribución de Poisson debido a las grandes cargas en la unidad durante la reconstrucción, es más probable que ocurra una falla de una segunda unidad durante este período, y la distribución está más cerca de una distribución Gamma con valores ligeramente más altos después de un falla ocurre.

La conclusión es que el rendimiento para RAID5 es superior al RAID6 en escrituras y para aplicaciones DB, mucho mejor. Para una aplicación principalmente leída, como un servidor web, no hay diferencia y debe usar RAID6. Los beneficios de costo del uso de RAID5 sobre RAID10 son enormes para un gran almacenamiento. Si puede pagar los gastos generales, use RAID10 para aplicaciones de uso intensivo de disco. RAID10 siempre funcionará mejor.

El resultado final más grande es que RAID NO es una copia de seguridad, sino una forma de limitar el tiempo de inactividad al proporcionar redundancia. Si los datos son críticos, debe hacer una copia de seguridad (y probar su proceso de recuperación).

Si falla una matriz RAID de 10 unidades SAS de 2 TB, la recuperación costará miles de dólares y demorará semanas en recuperarse, incluso si se puede hacer.

¡Todos los arreglos RAID finalmente fallan!

Dr. bombilioso
fuente
1

Hablando estrictamente desde un punto de vista de integridad de datos, sí. Puede perder dos unidades de forma segura, aunque es raro que pierdan dos juntas por un trauma físico severo en el sistema.

Financieramente, no tanto. El repuesto en caliente se puede apagar hasta que sea necesario, lo que significa que no usa energía y no incurre en desgaste.

Y como siempre, RAID no es un reemplazo para un plan de copia de seguridad fuera del sitio adecuado.

Ignacio Vazquez-Abrams
fuente
1

¿Has considerado 10? Si tienes suficientes discos para la incursión 6, tienes suficiente para hacer un volumen de 10. En la mayoría de los casos, 10 es más rápido y más redundante (a costa de un poco de espacio en disco).

Joel Coehoorn
fuente
10 solo admite 4 discos. así que la incursión 10 no es una opción de la OMI.
Trevor Boyd Smith
1
@Trevor Raid 10 admite cualquier número par de discos> = 4. Si puede hacer la incursión 6, puede hacer la incursión 10.
Joel Coehoorn
1

Estas respuestas parecen incorrectas porque se basan SOLAMENTE en el rendimiento teórico de la unidad. Tenga en cuenta que si tiene un controlador RAID con 1 GB de caché, entonces la escritura (generalmente bajo carga normal, no en un escenario de carga alta no normal masiva) es inmediata desde la perspectiva del usuario o la aplicación, fue a la memoria y luego el La escritura 'real' ocurre en el rendimiento de la unidad.

Sin embargo, la lectura no puede ser 'falsificada' (acelerada con un caché) a menos que los mismos datos hayan sido cargados recientemente o habitualmente. Raid 6 es mejor para leer y es más tolerante (2 contra una unidad). Raid 5 es una escritura más lenta y muy lenta cuando se reconstruye.

Entonces, si bien RAID 5 sería lento en la escritura real, se ocultará con un buen controlador RAID, donde la escritura se produce en la memoria desde la perspectiva del usuario / aplicación. Sin embargo, la incursión 5 es de lectura más lenta que la incursión 6 y eso no se mejorará con un controlador a menos que los datos ya hayan sido cargados o un algoritmo mantenga un registro de lecturas repetidas. En la vida real: la incursión 6 gana.

En conclusión, la redacción de la incursión 5 es lenta pero está oculta con un buen controlador y eso hace que la incursión 5 o 6 sea básicamente igual con el rendimiento 'percibido' en la escritura (hay algunas excepciones). Sin embargo, Raid 6 lee más rápido y los controladores probablemente no ayuden en una carga de trabajo real para mejorar el rendimiento de lectura. Ahora agregue que Raid 6 puede tomar dos fallas y Raid 5 + 1 solo una, es fácil elegir Raid 6 como una mejor opción: no olvide que la reconstrucción en Raid 5 también es muy lenta. También he aprendido que se utilizan unidades Raid 6 (así probadas correctamente) y las unidades que fallan tienden a fallar muy rápidamente. Una vez que una matriz está activa por más de 30 días, tiende a durar años. Un repuesto dinámico no se ha probado y en realidad puede fallar inmediatamente cuando sea necesario.

Trevor
fuente
0

Estos son los hechos del caso, y son indiscutibles (por cualquiera que sepa de qué están hablando):

  1. RAID5 + hotspare es, literalmente, la peor opción RAID posible que puede elegir.
  2. RAID10 debería ser la opción predeterminada si le interesan sus datos (lo que significa que depende de ellos, por ejemplo, para mantener su negocio en marcha).

Si considera todas las opciones RAID posibles, no hay caso en el que RAID5 + hotspare sea la mejor opción, principalmente porque si tiene RAID5 + hotspare, significa que tiene 4 unidades, y con 4 unidades puede hacer RAID6, o incluso mejor, puedes hacer RAID10.

Con 4 unidades, obtiene el mismo almacenamiento utilizable de todas las opciones (R5 + HS, R6, R10).

Si su objetivo es el rendimiento, entonces RAID10 será superior a RAID5 y RAID6.

Si su objetivo es la seguridad, RAID6 o RAID10 son superiores a RAID5 con o sin repuesto. Es discutible cuál es más seguro (6 contra 10). RAID6 puede soportar 2 fallas de unidad, pero debido a errores de lectura irrecuperables (URE), también es posible que una sola falla de unidad en una RAID6 mate a toda la matriz.

RAID10, debido a que no está basado en la paridad, no tiene el mismo problema con los URE. Si un RAID de paridad (R5, etc.) pierde una unidad y luego encuentra un URE, se pierde toda la matriz. Con RAID1 o RAID10, si se pierde una unidad y luego se encuentra un URE en el disco espejo, solo se pierde el sector ilegible.

Consulte aquí para obtener una explicación detallada de por qué RAID5 es la peor opción posible . Consulte también aquí una lista de opciones RAID razonables por número de unidades . Tenga en cuenta que, en ningún caso, RAID5 es la mejor opción (independientemente del hotspare).

usuario1594322
fuente
2
Estoy en desacuerdo. RAID5 tiene sus usos. (por ejemplo, cuando el presupuesto es ajustado y realmente necesita espacio en disco). Y dado que RAID no reemplaza una copia de seguridad que sobrevive a una falla del disco, es suficiente para llevarlo hasta las 5 p.m., momento en el que las personas abandonan la oficina y usted realiza el mantenimiento de emergencia.
Hennes
Hay una diferencia entre "la mejor opción" y "la mejor opción que puede pagar". RAID5 nunca es la mejor opción, nunca. La gente viene aquí para obtener la mejor respuesta, y la gente debería irse sabiendo que RAID5 siempre es menos que el mejor. Es matemáticamente comprobable que, en algunos casos, RAID0 es más confiable que RAID5. Así de aterrador es RAID5. En muchos casos, el RAID5 puede no llegar a las 5 PM. Hay una gran diferencia entre la teoría y el mundo real cuando se trata de RAID5. Ver aquí
user1594322
No me queda claro por qué dice que un RAID10 no tiene el mismo problema con los URE. Con una configuración RAID10 de cuatro unidades, si pierde una unidad y sufre un URE en su espejo correspondiente, tiene la misma manguera.
ChrisInEdmonton
Si RAID10 tiene una unidad fallida y luego tiene un URE en la unidad sobreviviente, solo pierde el sector ilegible, no toda la matriz. Se actualizó la respuesta.
user1594322