Tenemos un RAID-6 de 16 unidades que tiene tres unidades con problemas. Dos ya están muertos, y el tercero está dando advertencias INTELIGENTES. (No importa cómo llegó en tan mal estado).
Obviamente, queremos reemplazar las unidades muertas antes que las que aún funcionan, pero es mejor:
reemplace una unidad muerta, permita que se reconstruya el RAID, luego reemplace la otra y deje que se reconstruya nuevamente; o
reemplazar ambas unidades a la vez y dejar que reconstruya ambas en paralelo?
Para decirlo de otra manera, ¿volveremos a un estado de redundancia más rápido reintroduciendo una o dos unidades? ¿La reconstrucción de dos unidades en paralelo ralentiza el proceso de reconstrucción?
En caso de que sea importante, el controlador es un 3ware 9650SE-16ML.
fuente
Respuestas:
!!!!! UNO !!!!!
Haz uno a la vez, en serio amigo, no pienses en hacer esto de CUALQUIER otra forma, está bien.
Cualquier otra cosa pondrá a prueba sus habilidades de restauración del sistema completo.
fuente
¿Tiene copias de seguridad buenas y recientes? Si no, ¿crees que puedes obtenerlos en un tiempo razonable?
Sinceramente, estaría más preocupado por desconectar el disco defectuoso durante una reconstrucción que cualquier otra cosa: si ya está arrojando errores SMART, está a más de la mitad del camino.
Mi sugerencia sería confirmar sus copias de seguridad, luego reconstruir una unidad a la vez para intentar recuperar a un estado en el que pueda reemplazar la que arroja errores SMART (unidades muertas primero, errores suaves al final).
Si no tiene copias de seguridad, es una trampa: la copia de seguridad puede crear suficientes errores suaves para marcar la unidad marginal como fallida, al igual que tratar de hacer una reconstrucción.
fuente
No veo ningún punto en cambiarlo como "un disco a la vez".
Obviamente, si RAID es capaz de "reactivar" ambos discos simultáneamente ( que de todos modos fallan ), solo ganas permitiendo que todo el RAID recupere su capacidad de soportar hasta 2 fallas más rápido .
fuente
Mi 0.02. $
Como el servidor ya está fuera de línea, ejecute ddrescue en la unidad que está a punto de fallar, para clonarlo en otra unidad sana.
Luego, coloque la nueva unidad sana en la matriz. Si la clonación es exitosa, evitará el riesgo de ver que la unidad falla durante 2 reconstrucciones.
fuente