Tenemos un servidor Dell PowerEdge T410 con CentOS, con una matriz RAID-5 que contiene 5 discos Seagate Barracuda 3 TB SATA. Ayer el sistema se bloqueó (no sé cómo exactamente y no tengo ningún registro).
Al iniciar el BIOS del controlador RAID, vi que de los 5 discos, el disco 1 estaba etiquetado como "perdido" y el disco 3 estaba etiquetado como "degradado". Forcé una copia de seguridad del disco 3 y reemplacé el disco 1 con un nuevo disco duro (del mismo tamaño). El BIOS detectó esto y comenzó a reconstruir el disco 1; sin embargo, se atascó en% 1. El indicador de progreso giratorio no se movió toda la noche; totalmente congelado
¿Cuáles son mis opciones aquí? ¿Hay alguna forma de intentar la reconstrucción, además de utilizar algún servicio profesional de recuperación de datos? ¿Cómo podrían dos discos duros fallar simultáneamente de esa manera? Parece demasiado casual. ¿Es posible que el disco 1 haya fallado y, como resultado, el disco 3 "no esté sincronizado"? Si es así, ¿hay alguna utilidad que pueda usar para recuperarla "sincronizada"?
fuente
Respuestas:
Después de que aceptaste una mala respuesta, lamento mucho mi opinión herética (que ya guardó tales matrices varias veces).
Su segundo disco fallido probablemente tenga un problema menor, tal vez un fallo de bloque. Esta es la causa, por qué la herramienta de sincronización incorrecta de su firmware raid5 defectuoso se estrelló en él.
Puede hacer fácilmente una copia de nivel de sector con una herramienta de clonación de disco de bajo nivel (por ejemplo, gddrescue probablemente sea muy útil) y usar este disco como su nuevo disco3. En este caso, su matriz sobrevivió con una corrupción menor de datos.
Lo siento, probablemente sea demasiado tarde, porque la esencia de la respuesta ortodoxa en este caso: "fallo múltiple en una redada5, ¡aquí está el apocalipsis!"
Si desea una incursión redundante muy buena, use la incursión de software en Linux. Por ejemplo, su diseño de datos de superbloque de incursión es público y está documentado ... Realmente lo siento, por mi otra opinión herética.
fuente
Tiene una falla de doble disco. Esto significa que sus datos se han ido y tendrá que restaurar desde una copia de seguridad. Es por eso que se supone que no debemos usar la incursión 5 en discos grandes. Desea configurar su incursión para que siempre tenga la capacidad de soportar dos fallas de disco, especialmente con discos grandes y lentos.
fuente
Sus opciones son:
fuente
La falla simultánea es posible, incluso probable, por las razones que otros han dado. La otra posibilidad es que uno de los discos haya fallado algún tiempo antes, y no lo estaba comprobando activamente.
Asegúrese de que su monitoreo recoja rápidamente un volumen RAID que se ejecute en modo degradado. Tal vez no obtuvo una opción, pero nunca es bueno tener que aprender estas cosas del BIOS.
fuente
Para responder "¿Cómo podrían dos discos duros fallar simultáneamente de esa manera?" precisamente, me gustaría citar este artículo :
Entonces, RAID5 no era seguro en 2009. RAID6 también lo estará pronto. En cuanto a RAID1, comencé a hacerlos con 3 discos. RAID10 con 4 discos también es precario.
fuente
El subproceso es antiguo, pero si está leyendo, comprenda que cuando una unidad falla en una matriz RAID, verifique la antigüedad de las unidades. Si tiene varios discos en una matriz de incursiones y tienen más de 4-5 años, es muy probable que otra unidad falle. *** HAGA UNA IMAGEN o Copia de seguridad ** antes de continuar. Si cree que tiene una copia de seguridad, pruébela para asegurarse de que puede leerla y restaurarla.
La razón es que está colocando años de desgaste normal en las unidades restantes mientras giran a toda velocidad durante horas y horas. Cuanto mayor sea el número de unidades de 6 años, mayor será la posibilidad de que otra unidad falle por el estrés. Si es RAID5 y vuela la matriz, es genial que tenga una copia de seguridad, pero un disco de 2TB tardará entre 8 y 36 horas en restaurarse, según el tipo de controlador RAID y otro hardware.
Reemplazamos rutinariamente la sección de incursión completa en los servidores de producción si todas las unidades son viejas. ¿Por qué perder el tiempo reemplazando una unidad, luego espere hasta que la siguiente falle en un día, semana, mes o dos? Tan barato como lo son las unidades, simplemente no vale la pena el tiempo de inactividad.
fuente
Por lo general, cuando compra unidades en un lote de un revendedor acreditado, puede solicitar que las unidades provengan de diferentes lotes, lo cual es importante por las razones mencionadas anteriormente. A continuación, esta es precisamente la razón por la cual existe RAID 1 + 0. Si hubiera utilizado 6 unidades en RAID 1 + 0, habría tenido 9 TB de datos con redundancia inmediata donde no es necesario reconstruir un volumen.
fuente
Si dmraid reconoce su controlador (por ejemplo, aquí ) en Linux, puede usar ddrescue para recuperar el disco fallido en uno nuevo y usar dmraid para construir la matriz, en lugar de su controlador de hardware.
fuente