¿Busca una experiencia real de falla de unidad RAID 5 2? [cerrado]

15

Me pregunto si alguien tiene alguna experiencia personal de falla de unidad RAID 5 2 con unidades grandes.

Según tengo entendido, la teoría es que con unidades grandes de 1-2TB, si una unidad falla en el conjunto de incursiones, necesita reconstruir todo, por lo que afecta a todas las otras unidades con mucha fuerza y ​​aumenta la posibilidad de otra falla, especialmente si las unidades eran del mismo lote de fabricación. Y si pierde otra unidad, pierde todos los datos.

Esto generalmente se explica después de la declaración "RAID no es una copia de seguridad" con la que estoy de acuerdo.

La teoría de esto tiene sentido, y lo entiendo, pero ¿realmente sucede?

Brian
fuente
Lamentablemente, acabamos de recibir una nueva pregunta con la experiencia en vivo de esto. :( superuser.com/questions/516844/…
Hennes

Respuestas:

15

Sí, me ha pasado a mí. Un conjunto de 4 unidades WD 500 (grado del consumidor) se estropeó en el transcurso de aproximadamente una semana. Tardé en reemplazar el primero, no desconecté la matriz y perdí todos mis datos cuando falló el segundo. Reutilicé los dos buenos restantes, y uno de ellos falló en el próximo mes. Todos fueron enfriados y cuidados adecuadamente. Solo puedo decir que ahora creo en la retórica del "lote malo".

En un incidente separado, tuve 3 unidades separadas de diferentes marcas y modelos fallaron con un mes de diferencia, aunque estoy bastante seguro de que la razón por la que fallaron se debió a una ventilación inadecuada. ¡No cocines tus discos!

Paul McMillan
fuente
3
Como corolario, tenga un repuesto libre para cuando una unidad se descomponga. Además, tenga cuidado con la corrupción silenciosa ... es fácil perder datos en una unidad que solo finge funcionar.
Paul McMillan
Esta es otra razón por la que no debe instalar unidades que sean todas del mismo lote en una matriz RAID: tienen tiempos de falla correlacionados (ya sabe, como tasas predeterminadas de valores hipotecarios colateralizados de alto riesgo).
Andrew Mao
4

Sin embargo, esto realmente me ha sucedido, no era realmente la forma más común en que un disco fallaba. Tenía 4 unidades sata externas de 500 gb en la incursión 5. Estaban conectadas a un viejo servidor montado en bastidor IBM. Toda la configuración se escondió debajo de las escaleras y un día, ya sea una rata o un conejito, pero algo se mordió a través de algunos cables de alimentación y se cortaron 2 unidades. Todas las unidades estaban en gabinetes externos baratos, así que supongo que no debería haberme sorprendido tanto.

AdamB
fuente
3

¿Está preguntando si puede perder 2 unidades consecutivas? Claro, cualquier cosa puede pasar. Raid 5 permite una gran disponibilidad y aumento del rendimiento para el acceso a datos, pero raid 5 no respalda nada. Simplemente ayuda a evitar el uso de sus datos debido a la pérdida de hardware de una sola unidad. No es una copia de sus datos. No puede recuperar una copia anterior, una revisión anterior o simplemente una copia de su trabajo actual. Además, no protege contra la corrupción de datos. Hay más cosas que podrían salir mal que simplemente perder una unidad. El virus podría corromper todos sus datos, a la hermanita le gusta ver que la papelera en su escritorio se llena y vacía mientras arroja archivos, un estúpido amigo deja caer un refresco en su máquina, etc.

Además, recuerde, puede perder el controlador de incursión del disco duro. Y no puede simplemente mover la matriz a otro controlador aleatorio. Normalmente tiene que usar exactamente el mismo y aún así, algo podría salir mal. Algunos controladores de banda almacenan información a bordo y otros envían información de configuración a la matriz adjunta. Es una apuesta cuando surge esta situación.

La misma pregunta en SF: /server/2888/why-is-raid-not-a-backup

¿Necesitas más razones?

EDITAR: Su idea es correcta y podría pasarle a cualquiera. Personalmente, no he visto fallar más de un disco, pero he visto algunos morir muy juntos. Ninguno de ellos estaba en esa ventana de reconstrucción, pero técnicamente es un riesgo. Pero, tiene una copia de seguridad en caso de que algo suceda, ¿verdad? jaja. Algunas personas aprenden por el camino difícil a veces. Raid 6 lo lleva al siguiente nivel con doble paridad y puede perder hasta 2 unidades. Con cualquier configuración de incursión, la posibilidad de falla aumenta con el tamaño (# de unidades) y la complejidad de la matriz. Más unidades = más puntos de posible falla

Troggy
fuente
lo siento, entiendo todo eso, solo preguntando si le ha sucedido a alguien y cuál era el escenario.
Brian
3

Tiene razón, en un escenario RAID-5 si pierde un disco y luego se reconstruye, el sistema debe leer con éxito cada sector de todas las unidades supervivientes en el conjunto RAID. NetApp afirma que para algunas situaciones (pueden hacer conjuntos RAID de hasta 28 unidades de algún tipo), sus probabilidades de alcanzar una segunda falla pueden ser de hasta uno de cada diez. Por lo tanto, hacen una "paridad dual" que creo que está relacionada con RAID-6.

Obviamente, cuantas más unidades tenga en un conjunto RAID, y cuanto más grandes sean, más probabilidades tendrá de encontrar un problema. Para un conjunto RAID pequeño (3-5 discos), las probabilidades probablemente no hayan cambiado demasiado respecto al uso de RAID-5.

Pero siempre hago Raid-DP en NetApps donde puedo.

David Mackintosh
fuente
+1 Nunca había pensado en el hecho de "debo leer con éxito todos los sectores de todas las unidades sobrevivientes".
AaronLS
2

Sin experiencia personal , pero he escuchado los gritos de aquellos a quienes les ha sucedido. Cualquier sistema de almacenamiento, ya sea una sola unidad, una llave USB, una cinta, una gran instalación RAID o Amazon S3, eventualmente fallará de la manera que le resulte más inconveniente. Una segunda falla al reconstruir un conjunto RAID 5 es solo una de las formas en que esto puede suceder.

Por otro lado, el soporte para RAID de triple paridad se integró en OpenSolaris hace un par de días, por lo que al menos un proveedor piensa que permitir dos fallas adicionales durante la reconstrucción de RAID de paridad vale la pena el esfuerzo de ingeniería.

Stephen Veiss
fuente
1

Esto realmente sucede de hecho. Es por eso que las soluciones de almacenamiento de NetApp tienen una implementación de RAID 6. Esto es solo en caso de que pierda una segunda unidad durante la reconstrucción.

Puede calcular la probabilidad de una falla utilizando las fórmulas estándar que se enumeran en el siguiente texto del enlace de la página . Si tiene suficientes discos, podría insertar este número en la zona de preocupación si está utilizando un RAID 5 con una gran cantidad de volúmenes de datos.

Puedo decirle por experiencia personal que ciertamente puede tener dos fallas de unidad en la misma matriz dentro del mismo período crítico. La incursión 6 me salvó de tener que restaurar desde la copia de seguridad.

Espero que esto ayude

Axxmasterr
fuente
1

Aquí hay un escenario: una unidad falla en su matriz RAID5, pero su repuesto ya estaba o bien, o finalmente llegó el pedido del nuevo disco duro. Usted (o algún secuaz remoto quizás) vaya con un disco nuevo en la mano para reemplazar uno defectuoso. Debido al mal etiquetado, al cansancio o simplemente a la necedad, se expulsa uno de los discos duros restantes en lugar del defectuoso ... y ahí está su segundo fallo.

camster342
fuente
1

Lo he visto varias veces mientras estoy en el negocio de recuperación de datos. Y sí, a menudo fallan al mismo tiempo, sin embargo, no creo que esto tenga nada que ver con cuando se construyeron necesariamente, ya que también he visto que sucede con unidades no coincidentes. Muy a menudo, este tipo de falla ocurre poco después de una tormenta eléctrica, sobrevoltaje o corte de energía.

Por lo general, el aumento daña las unidades o el controlador RAID, y en pocos días comienzan a fallar. De hecho, estoy trabajando en este momento para recuperar una matriz que tuvo dos unidades falladas simultáneamente después de un corte de energía. (se ve desesperado en este momento)

Un pequeño consejo: los protectores contra sobretensiones realmente no protegen su equipo. Siempre conecte su raid 5 a un buen UPS. Nunca he visto que esto suceda cuando la matriz estaba en un UPS.

Jared
fuente
1

Accidentalmente, sacar una segunda unidad buena de un conjunto de paridad única no debería destruir la matriz con una buena implementación RAID. Sé que ZFS RAID-Z congelará cualquier E / S en la matriz hasta que vuelva a estar en línea.

Sfynx
fuente
0

Otro escenario: se ordena a un minion remoto que extraiga la cinta de respaldo de la unidad grabada. Ella va al estante y no saca la cinta de la unidad de grabación ... pero 2 (dos) unidades de disco duro de las unidades de disco al mismo tiempo y listo: falla de 2 unidades.

¿Crees que esto es descabellado? Bueno, ahora estoy en un cliente que hizo exactamente eso y ahora está mirando la reconstrucción de un servidor.

Bueno, ella no quemó la cinta que estaba realmente en la unidad de grabación o lo que sea ;-)

Mathias
fuente