Aquí está mi situación.
Tengo un servidor Dell con un controlador Dell Perc 7i (controlador LSI).
Tenía una unidad que me dio una advertencia de Falla prevista, así que llamé a su soporte y salieron y reemplazaron la unidad y la matriz se reconstruyó, bastante estándar.
Dos semanas después, tengo otra unidad que me da la advertencia de Falla prevista. Me imaginé que tal vez era un mal lote de unidades o una coincidencia, etc. Así que me puse en contacto con el soporte y busqué más en profundidad. Me doy cuenta de que hubo bloques defectuosos en una de las otras unidades que no fallaron y que esos bloques defectuosos se copiaron durante la reconstrucción. Así que ahora tengo bloques defectuosos por todas partes y están matando lentamente mi matriz. He llegado a descubrir que esto se llama una matriz perforada.
Por lo tanto, su consejo fue reemplazar todas las unidades, reconstruir la matriz y restaurar desde la copia de seguridad. Excepto que he tenido este problema durante algunas semanas, lo que significa que mis copias de seguridad son malas ... y si restauro desde una copia de seguridad anterior (hace un mes), me faltarán alrededor de 4 semanas de datos de mi base de datos que Es totalmente inaceptable para nuestra oficina.
Mi pregunta es ... ¿alguien se ha recuperado de algo como esto sin tener que perder datos o sin el enfoque completo (tirar todo por la ventana y comenzar de nuevo)?
Encontré un enlace que cubría mi escenario, no estoy seguro de si arroja alguna luz sobre la situación: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/
Cualquier ayuda o dirección sería apreciada ! ¿Qué piensan ustedes?
fuente
En este instante, haga lo siguiente:
Esperemos que los discos sigan siendo lo suficientemente buenos como para que sus datos estén intactos y no encuentre ningún problema al ejecutar la nueva copia de seguridad completa.
Luego deseche esos discos y cree una nueva matriz RAID. Una vez que esté listo, intente restaurar desde la copia de seguridad que tomó en este momento. Con suerte, eso será todo lo que necesitas hacer.
Si eso falla, pruebe el siguiente más antiguo y el siguiente más antiguo, etc. Asegúrese de probar la funcionalidad del sistema, solo porque se inicia, no significa que esté completamente operativo. Particularmente, pruebe las bases de datos en busca de corrupción.
Si tuvo que restaurar todo el sistema desde una copia de seguridad anterior, está bien. Realice las copias de seguridad más recientes y restaure solo los archivos de la base de datos y otros archivos importantes. Pruébelos para asegurarse de que funcionen correctamente. De nuevo, si eso falla, pruebe el siguiente más antiguo.
El uso de este proceso minimiza la pérdida de datos.
fuente
Las respuestas proporcionadas por Grant y Nathan C son excelentes en cuanto a cómo debe proceder en el manejo de las copias de seguridad / restauración, y en el tratamiento de la integridad de los datos.
Aquí hay algunos detalles más claros sobre cómo manejar el conjunto RAID cuando llega el momento de recrear el disco virtual y restaurar desde la copia de seguridad:
Nota : Si usted ha estado utilizando RAID 5, debería seriamente considerar el uso de RAID6 este momento. RAID5 no es confiable para los datos críticos del negocio de acuerdo con las mejores prácticas estándar actuales de la industria en una matriz de este tamaño. Los discos SATA / NL-SAS de gran capacidad también tienen un mayor riesgo de encontrar un URE durante las reconstrucciones, lo que resulta en un pinchazo como el que está tratando. RAID6 reduce enormemente este riesgo y es generalmente aceptable para datos críticos con capacidades de disco disponibles actualmente.
fuente