RAID-5: ¿Dos discos fallaron simultáneamente?

21

Tenemos un servidor Dell PowerEdge T410 con CentOS, con una matriz RAID-5 que contiene 5 discos Seagate Barracuda 3 TB SATA. Ayer el sistema se bloqueó (no sé cómo exactamente y no tengo ningún registro).

Al iniciar el BIOS del controlador RAID, vi que de los 5 discos, el disco 1 estaba etiquetado como "perdido" y el disco 3 estaba etiquetado como "degradado". Forcé una copia de seguridad del disco 3 y reemplacé el disco 1 con un nuevo disco duro (del mismo tamaño). El BIOS detectó esto y comenzó a reconstruir el disco 1; sin embargo, se atascó en% 1. El indicador de progreso giratorio no se movió toda la noche; totalmente congelado

¿Cuáles son mis opciones aquí? ¿Hay alguna forma de intentar la reconstrucción, además de utilizar algún servicio profesional de recuperación de datos? ¿Cómo podrían dos discos duros fallar simultáneamente de esa manera? Parece demasiado casual. ¿Es posible que el disco 1 haya fallado y, como resultado, el disco 3 "no esté sincronizado"? Si es así, ¿hay alguna utilidad que pueda usar para recuperarla "sincronizada"?

Mike Furlender
fuente
20
Sí, los grandes discos sata tienden a hacer eso. (La reconstrucción de 3 TB lleva muchas horas mientras está expuesto a fallas dobles). Por lo tanto, esto es lo que se espera y es por eso que RAID-5 usando una configuración de este tipo no es absolutamente recomendable.
MichelZ
99
En efecto. En un mundo ideal, las tasas de falla del disco se distribuyen al azar. Prácticamente, esto no sucede: generalmente se compran del mismo lote y están sujetos a las mismas tensiones, lo que significa que todos comienzan a llegar al final de la vida al mismo tiempo. Un cambio repentino en la carga puede inclinar fácilmente a varios 'al límite', incluso antes de comenzar a buscar tasas de error irrecuperables en los discos SATA. De todos modos, me temo que la mala noticia es que, a menos que pueda obtener una de esas unidades en línea, es hora de obtener las copias de seguridad.
Sobrique
55
Sé que no ayuda mucho ahora, pero solo para su información: el consenso general es utilizar RAID6 para unidades de más de 1 TB (por lo menos cuando hablamos de 7200 rpm).
pauska
2
RAID 5 ofrece tolerancia a fallas, pero es una opción de compromiso: tiene resistencia N + 1, pero si tiene unidades grandes tiene una ventana grande donde puede ocurrir una segunda falla. RAID-6 proporciona tolerancia a fallas N + 2, que generalmente se considera buena (las probabilidades de fallas triples son mucho más bajas). Sin embargo, también encontrará la tasa de falla de los discos más caros (por ejemplo, unidades SATA no baratas)
Sobrique

Respuestas:

24

Después de que aceptaste una mala respuesta, lamento mucho mi opinión herética (que ya guardó tales matrices varias veces).

Su segundo disco fallido probablemente tenga un problema menor, tal vez un fallo de bloque. Esta es la causa, por qué la herramienta de sincronización incorrecta de su firmware raid5 defectuoso se estrelló en él.

Puede hacer fácilmente una copia de nivel de sector con una herramienta de clonación de disco de bajo nivel (por ejemplo, gddrescue probablemente sea muy útil) y usar este disco como su nuevo disco3. En este caso, su matriz sobrevivió con una corrupción menor de datos.

Lo siento, probablemente sea demasiado tarde, porque la esencia de la respuesta ortodoxa en este caso: "fallo múltiple en una redada5, ¡aquí está el apocalipsis!"

Si desea una incursión redundante muy buena, use la incursión de software en Linux. Por ejemplo, su diseño de datos de superbloque de incursión es público y está documentado ... Realmente lo siento, por mi otra opinión herética.

Peter dice reinstalar a Mónica
fuente
8
Es una pena que esto haya bajado los votos, en realidad trata de ayudar al OP a arreglar el desastre a diferencia de otros. +1
Vality
3
@Vality no intenta resolver el desorden, extiende sus problemas. Una incursión5 con bloques corruptos quemados no da fin al dolor, ya que pasará controles de integridad pero se degradará regularmente. Tampoco tendría idea de qué datos están corruptos. Si fuera tan fácil como arreglar un bloque, esa sería la solución estándar.
JamesRyan
44
@JamesRyan Estoy de acuerdo en que causará algunos problemas posteriores e incluso estoy de acuerdo en que aquí hay problemas subyacentes. Sin embargo, ofrece una solución válida sobre cómo recuperar cierta funcionalidad y, como el OP estaba hablando de expertos en recuperación de datos, solo puedo suponer que de lo contrario no tendrían copias de seguridad para recuperar sus datos. Al final, esta solución solo sería la primera parte de una solución, una vez que este método haya reiniciado el sistema, es probable que desee transferir el sistema de archivos a 5 discos nuevos y luego hacer una copia de seguridad importante.
Vality
1
"Podrías hacer fácilmente una copia a nivel de sector de una herramienta de copia en bloque" ¿Es esto realmente lo que querías escribir?
Arnaud Meuret
1
@MikeFurlender Creo que el hardware es más rápido, pero patentado y, por lo tanto, frágil, ya que necesita obtener exactamente el mismo controlador en caso de que falle. El RAID de software es independiente del hardware. Ver btrfs y zfs.
Martin Ueding
38

Tiene una falla de doble disco. Esto significa que sus datos se han ido y tendrá que restaurar desde una copia de seguridad. Es por eso que se supone que no debemos usar la incursión 5 en discos grandes. Desea configurar su incursión para que siempre tenga la capacidad de soportar dos fallas de disco, especialmente con discos grandes y lentos.

Albahaca
fuente
3
Hay dos problemas con RAID5. Uno: el tiempo de reconstrucción de 3 TB, dado que una unidad SATA lenta puede ser grande, lo que aumenta las probabilidades de una falla compuesta. La otra es la tasa de error de bit irrecuperable: la hoja de especificaciones en la mayoría de las unidades SATA tiene 1/10 ^ 14, que es - aproximadamente - 12 TB de datos. Con 5 vías, RAID 3B, esto se vuelve casi inevitable cuando se necesita una reconstrucción.
Sobrique
1
Utilizo RAID5 en mi matriz de unidades de 3TB 5, estaba intentando obtener una segunda matriz para usar como copia replicada de la primera. Esa forma de perder los datos requeriría que más de 1 disco fallara en ambos arreglos al mismo tiempo (por lo que necesitaría 4 discos) pero manteniendo esa gran cantidad de capacidad disponible. Después de leer esto, ahora puedo aumentar ese período de tiempo para obtener la segunda matriz.
Guerra
1
Probablemente solo tenga un badblock en su disco3. Realmente me pregunto por qué un administrador de sistemas profesional nunca escuchó de las herramientas de copia a nivel de bloque.
Peter dice reinstalar a Mónica el
1
@Wardy, ¿la incursión 6 no te daría eso?
Albahaca
3
No es una respuesta muy útil. Claro, con una falla de doble disco en un RAID 5, la posibilidad de recuperación no es buena. Pero la mayoría de las fallas de disco doble en RAID 5 son probablemente solo una cuestión de un disco defectuoso y algunos errores de lectura no corregidos en otros discos. Si ese es el caso, aún es posible recuperar la mayoría de los datos con las herramientas adecuadas. Los punteros a tales herramientas serían útiles.
kasperd
37

Sus opciones son:

  1. Restauración desde copias de seguridad.
    • Usted hacer tener copias de seguridad, ¿verdad? RAID no es una copia de seguridad.

  2. Recuperación profesional de datos
    • Es posible, aunque muy costoso y no garantizado, que un servicio de recuperación profesional pueda recuperar sus datos.

  3. Aceptar su pérdida de datos y aprender de la experiencia.
    • Como se señaló en los comentarios, los discos SATA grandes no se recomiendan para una configuración RAID 5 debido a la posibilidad de una doble falla durante la reconstrucción que causa la falla de la matriz.
      • Si debe ser RAID de paridad, RAID 6 es mejor, y la próxima vez use también un repuesto dinámico.
      • Los discos SAS son mejores por una variedad de razones, que incluyen más confiabilidad, resistencia y tasas más bajas de errores de bits irrecuperables que pueden causar URE (errores de lectura irrecuperables)
    • Como se señaló anteriormente, RAID no es una copia de seguridad. Si los datos son importantes, asegúrese de que estén respaldados y de que sus copias de seguridad se hayan probado y restaurado.
HopelessN00b
fuente
1
Si tiene 5 discos (según el OP), y está comprometido con un repuesto dinámico, ¿seguramente tomaría RAID10 sobre RAID6 ...?
jimbobmcgee
1
Bueno, para empezar, usaría 4 ejes en un RAID 1 + 0 para obtener 2 discos de espacio, dejando un disco 'libre'. Puede tolerar dos fallas (las dos correctas al menos). RAID6 le daría 3 discos de espacio, y también puede tolerar dos fallas (dos). RAID1 + 0 tiene una mejor capacidad de rendimiento, con una penalización de escritura más baja y un rendimiento de lectura aleatoria potencialmente mejor (las lecturas pueden ser atendidas desde cualquiera de los dos cabezales).
Sobrique
Para el punto 2. Recuperación de datos. Recuperar datos de un RAID5 profesionalmente puede costarle $ 20k fácilmente. Además, OP permite que la reconstrucción se ejecute de la noche a la mañana, estresando el disco, lo que puede hacer que la recuperación sea más difícil o incluso imposible. Solo dejándote saber de antemano. Asegúrese de enviar todos los discos.
OmnipotentEntity
4

La falla simultánea es posible, incluso probable, por las razones que otros han dado. La otra posibilidad es que uno de los discos haya fallado algún tiempo antes, y no lo estaba comprobando activamente.

Asegúrese de que su monitoreo recoja rápidamente un volumen RAID que se ejecute en modo degradado. Tal vez no obtuvo una opción, pero nunca es bueno tener que aprender estas cosas del BIOS.

richardb
fuente
3
+1 por mencionar el monitoreo descuidado. Es importante notar ya el paso "normal" -> "crítico", no el paso "crítico" -> "fallido". Esto se aplica igualmente a todos los otros tipos de redundancias (línea de respaldo de internet, cerveza en el sótano, llanta de refacción, ...).
Hagen von Eitzen
2

Para responder "¿Cómo podrían dos discos duros fallar simultáneamente de esa manera?" precisamente, me gustaría citar este artículo :

El quid de la discusión es este. A medida que las unidades de disco se han vuelto cada vez más grandes (aproximadamente el doble en dos años), el URE (error de lectura irrecuperable) no ha mejorado a la misma velocidad. URE mide la frecuencia de ocurrencia de un error de lectura irrecuperable y generalmente se mide en errores por bits leídos. Por ejemplo, una tasa de URE de 1E-14 (10 ^ -14) implica que estadísticamente, un error de lectura irrecuperable ocurriría una vez en cada 1E14 bits leídos (1E14 bits = 1.25E13 bytes o aproximadamente 12TB).

...

El argumento es que a medida que aumenta la capacidad del disco y la tasa de URE no mejora a la misma tasa, la posibilidad de una falla de reconstrucción RAID5 aumenta con el tiempo. Estadísticamente, muestra que en 2009, las capacidades de disco habrían crecido lo suficiente como para dejar sin sentido usar RAID5 para cualquier arreglo significativo.

Entonces, RAID5 no era seguro en 2009. RAID6 también lo estará pronto. En cuanto a RAID1, comencé a hacerlos con 3 discos. RAID10 con 4 discos también es precario.

Halfgaar
fuente
3
Nuevamente, RAID no es una alternativa de respaldo, se trata simplemente de agregar "una zona de amortiguación" durante la cual se puede reemplazar un disco para mantener los datos disponibles ... disponibles. La otra opción es usar la replicación que requeriría 2 matrices para fallar al mismo tiempo ... mucho menos probable que piense.
Guerra
Personalmente, no me gusta el mantra de que RAID no es una copia de seguridad. El diccionario dice: "una persona, plan, dispositivo, etc., mantenido en reserva para servir como sustituto, si es necesario". Si la cantidad de redundancia no es suficiente, no servirá como sustituto. Si no le importa la redundancia que proporciona RAID, es mejor que no la use. En cuanto a que no es un reemplazo para las copias de seguridad fuera del disco y fuera del sitio, eso es un asunto completamente diferente, con lo que estoy de acuerdo (por supuesto).
Halfgaar
Entonces, ¿qué piensa sobre aquellos que usan bandas RAID sin redundancia? en este caso, la matriz RAID se está utilizando puramente para obtener un beneficio de rendimiento, que es un uso IMO perfectamente válido, en mi opinión, RAID tiene 2 propósitos: 1. proporcionar velocidad agrupando las unidades o 2. proporcionar una red de seguridad en caso de que n las unidades fallan asegurando que los datos aún estén disponibles.
Guerra
Cualquiera que implemente RAID elegiría el tipo de RAID que desea utilizar en función de sus necesidades, velocidad, confiabilidad o una combinación de los 2, pero eso aún no hace que RAID sea una forma de solución de respaldo.
Guerra
1
Cuando las personas dicen que RAID no es una copia de seguridad, no están hablando de disponibilidad. Creo que solo estás jugando con las palabras. :)
gparent
2

El subproceso es antiguo, pero si está leyendo, comprenda que cuando una unidad falla en una matriz RAID, verifique la antigüedad de las unidades. Si tiene varios discos en una matriz de incursiones y tienen más de 4-5 años, es muy probable que otra unidad falle. *** HAGA UNA IMAGEN o Copia de seguridad ** antes de continuar. Si cree que tiene una copia de seguridad, pruébela para asegurarse de que puede leerla y restaurarla.

La razón es que está colocando años de desgaste normal en las unidades restantes mientras giran a toda velocidad durante horas y horas. Cuanto mayor sea el número de unidades de 6 años, mayor será la posibilidad de que otra unidad falle por el estrés. Si es RAID5 y vuela la matriz, es genial que tenga una copia de seguridad, pero un disco de 2TB tardará entre 8 y 36 horas en restaurarse, según el tipo de controlador RAID y otro hardware.

Reemplazamos rutinariamente la sección de incursión completa en los servidores de producción si todas las unidades son viejas. ¿Por qué perder el tiempo reemplazando una unidad, luego espere hasta que la siguiente falle en un día, semana, mes o dos? Tan barato como lo son las unidades, simplemente no vale la pena el tiempo de inactividad.

Rickkee Ranton
fuente
1

Por lo general, cuando compra unidades en un lote de un revendedor acreditado, puede solicitar que las unidades provengan de diferentes lotes, lo cual es importante por las razones mencionadas anteriormente. A continuación, esta es precisamente la razón por la cual existe RAID 1 + 0. Si hubiera utilizado 6 unidades en RAID 1 + 0, habría tenido 9 TB de datos con redundancia inmediata donde no es necesario reconstruir un volumen.

Payton Byrd
fuente
¿Dónde está la evidencia que muestra que la parte sobre el uso de unidades de diferentes lotes no es más que un mito urbano? Además, RAID 1 no protege mágicamente contra chocar con sectores ilegibles durante la reconstrucción. Si desea protección contra eso, vaya con RAID 6 o con RAID 1 con 3 espejos (un poco caro).
Kasperd
1
@kasperd Creo que la pregunta que forma la primera parte de su comentario es similar, aunque obviamente no es exactamente la misma, ¿Debería 'ejecutar' un disco de un nuevo par RAID 1 para disminuir la posibilidad de un tiempo de falla similar? .
un CVn
1

Si dmraid reconoce su controlador (por ejemplo, aquí ) en Linux, puede usar ddrescue para recuperar el disco fallido en uno nuevo y usar dmraid para construir la matriz, en lugar de su controlador de hardware.

Brian Minton
fuente