RAID-6: ¿es mejor reemplazar dos unidades muertas al mismo tiempo, o una a la vez?

21

Tenemos un RAID-6 de 16 unidades que tiene tres unidades con problemas. Dos ya están muertos, y el tercero está dando advertencias INTELIGENTES. (No importa cómo llegó en tan mal estado).

Obviamente, queremos reemplazar las unidades muertas antes que las que aún funcionan, pero es mejor:

  1. reemplace una unidad muerta, permita que se reconstruya el RAID, luego reemplace la otra y deje que se reconstruya nuevamente; o

  2. reemplazar ambas unidades a la vez y dejar que reconstruya ambas en paralelo?

Para decirlo de otra manera, ¿volveremos a un estado de redundancia más rápido reintroduciendo una o dos unidades? ¿La reconstrucción de dos unidades en paralelo ralentiza el proceso de reconstrucción?

En caso de que sea importante, el controlador es un 3ware 9650SE-16ML.

Warren Young
fuente
10
¡Cruza todo lo que tienes que se puede cruzar y envía a tu divinidad favorita una gran donación!
user9517 es compatible con GoFundMonica el
1
¿Puedo hacer una pregunta al respecto? ¿Puede hacernos saber la marca y el modelo EXACTOS del disco en esta matriz? Por favor, si mis sospechas son correctas, es muy probable que esta pregunta se convierta en un punto de referencia útil para futuros usuarios que hagan ciertas preguntas. Gracias.
Chopper3
8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! ¿Lo apagaron? Bad JuJu mi amigo! Esta vez es demasiado tarde, pero en general, apagar las unidades (especialmente si son unidades más antiguas que han estado funcionando durante mucho tiempo) les da la oportunidad de arrojar errores en la conexión (y hacer que el controlador diga "Sí, esa unidad también está frita ")
voretaq7
2
@ voretaq7: Una vez envié todos los discos de una caja MSA-20 al infierno apagándolo después de ~ 3 años de tiempo de actividad y uso continuo. Nunca volveré a hacer eso :-)
karatedog
1
La matriz está funcionando y reconstruyéndose ahora, así que puedo obtener modelos exactos, para cualquier persona que se preocupe. Los discos duros originales eran ST31000340NS, lo que significa que son la versión para servidores de la que Chopper3 estaba preguntando. Entonces, ¿son conocidos por fallar o algo así? (Los nuevos son ST31000524NS.)
Warren Young

Respuestas:

27

!!!!! UNO !!!!!

Haz uno a la vez, en serio amigo, no pienses en hacer esto de CUALQUIER otra forma, está bien.

Cualquier otra cosa pondrá a prueba sus habilidades de restauración del sistema completo.

Chopper3
fuente
3
Los dos elementos que agregaría a esta respuesta son: (1) ORACIÓN (a la deidad que desee) y (2) MONITOREO una vez que todo vuelva a un estado seguro (para que sepa cuándo fallan las unidades en el futuro y puede abordar . el problema antes de que tenga fallos de dos y medio Opcionalmente también se puede configurar un repuesto activo en la matriz para el futuro.
voretaq7
3
O use RAID 10 </stockanswer>
Chopper3
1
Re: oración , sin comentarios. :) Re: monitoreo , he estado abogando por eso durante años; tal vez esto encenderá un fuego debajo de alguien. Re: RAID-10 , demasiados datos en un mercado de ofertas; cuando salieron 3 discos de TB, no triplicamos la redundancia, redujimos el número de discos en 1/3. Suspiro. Re: repuestos dinámicos , lo hacemos ahora que las unidades son lo suficientemente grandes como para permitirlo, pero este servidor en particular tenía 16 unidades en un gabinete de 16 unidades, cuando las unidades de 1 TB eran las más grandes que podía obtener, y realmente necesitábamos las 14 TB disponibles . Ir a un sistema de 24 unidades no hubiera funcionado; ver anterior. :)
Warren Young
2
Si las unidades ya han fallado, entonces no hay razón para mantenerlas en su lugar; más bien, esperaría que dos reconstrucciones consecutivas sean más estresantes para las otras unidades que una sola.
Simon Richter
1
+1, esto. Si bien dos reconstrucciones consecutivas agregan más estrés y es más probable que la tercera unidad falle antes de que termine ambas, también es una reconstrucción más rápida, y si la unidad marginal falla mientras reconstruye el segundo disco, aún permanece en línea. Entonces, la forma más rápida y segura de un estado tolerante a fallas es una a la vez.
Joel Coel
14

¿Tiene copias de seguridad buenas y recientes? Si no, ¿crees que puedes obtenerlos en un tiempo razonable?

Sinceramente, estaría más preocupado por desconectar el disco defectuoso durante una reconstrucción que cualquier otra cosa: si ya está arrojando errores SMART, está a más de la mitad del camino.

Mi sugerencia sería confirmar sus copias de seguridad, luego reconstruir una unidad a la vez para intentar recuperar a un estado en el que pueda reemplazar la que arroja errores SMART (unidades muertas primero, errores suaves al final).

Si no tiene copias de seguridad, es una trampa: la copia de seguridad puede crear suficientes errores suaves para marcar la unidad marginal como fallida, al igual que tratar de hacer una reconstrucción.

voretaq7
fuente
2
La mayoría o la totalidad de los datos en esta matriz es un tipo de caché, para evitar la necesidad de extraer terabytes de datos repetidamente a través de un enlace lento. Todos estos datos de caché son reemplazables, ya sea descargándolos nuevamente durante meses (una vez) o enviándolos a un sitio que puede copiar desde otra matriz. Entonces, las copias de seguridad no son el problema. Lo que estamos tratando de evitar al guardar la matriz es los días o semanas de tiempo de inactividad que envían el servidor a un depósito de servicios, vuelven a llenar la matriz y la envían de vuelta.
Warren Young
en ese caso, lo que @ chopper3 dijo es más o menos la Ley de la Tierra: reconstruya una unidad a la vez y ORE REALMENTE MUY DURO para que no desconecte la unidad marginal fuera de línea con la carga de lectura adicional.
voretaq7
Uf, me alegra oírlo.
Chopper3
0

No veo ningún punto en cambiarlo como "un disco a la vez".

Obviamente, si RAID es capaz de "reactivar" ambos discos simultáneamente ( que de todos modos fallan ), solo ganas permitiendo que todo el RAID recupere su capacidad de soportar hasta 2 fallas más rápido .

poige
fuente
-1

Mi 0.02. $

Como el servidor ya está fuera de línea, ejecute ddrescue en la unidad que está a punto de fallar, para clonarlo en otra unidad sana.

Luego, coloque la nueva unidad sana en la matriz. Si la clonación es exitosa, evitará el riesgo de ver que la unidad falla durante 2 reconstrucciones.

Guillaume A
fuente
Es un controlador RAID de hardware, los discos individuales no son direccionables.
Chopper3