Recuperarse de una matriz RAID perforada

10

Aquí está mi situación.

Tengo un servidor Dell con un controlador Dell Perc 7i (controlador LSI).

Tenía una unidad que me dio una advertencia de Falla prevista, así que llamé a su soporte y salieron y reemplazaron la unidad y la matriz se reconstruyó, bastante estándar.

Dos semanas después, tengo otra unidad que me da la advertencia de Falla prevista. Me imaginé que tal vez era un mal lote de unidades o una coincidencia, etc. Así que me puse en contacto con el soporte y busqué más en profundidad. Me doy cuenta de que hubo bloques defectuosos en una de las otras unidades que no fallaron y que esos bloques defectuosos se copiaron durante la reconstrucción. Así que ahora tengo bloques defectuosos por todas partes y están matando lentamente mi matriz. He llegado a descubrir que esto se llama una matriz perforada.

Por lo tanto, su consejo fue reemplazar todas las unidades, reconstruir la matriz y restaurar desde la copia de seguridad. Excepto que he tenido este problema durante algunas semanas, lo que significa que mis copias de seguridad son malas ... y si restauro desde una copia de seguridad anterior (hace un mes), me faltarán alrededor de 4 semanas de datos de mi base de datos que Es totalmente inaceptable para nuestra oficina.

Mi pregunta es ... ¿alguien se ha recuperado de algo como esto sin tener que perder datos o sin el enfoque completo (tirar todo por la ventana y comenzar de nuevo)?

Encontré un enlace que cubría mi escenario, no estoy seguro de si arroja alguna luz sobre la situación: http://www.theprojectbot.com/raid/what-is-a-punctured-raid-array/

Cualquier ayuda o dirección sería apreciada ! ¿Qué piensan ustedes?

usuario72593
fuente

Respuestas:

15

Supongo que su sistema todavía está activo, por lo que lo mejor que puede hacer es hacer una copia de seguridad inmediata , volcar los discos / matriz, reconstruir y restaurar desde la copia de seguridad.

Los bloques defectuosos no siempre significan que sus copias de seguridad también sean malas. Si no ha experimentado ningún problema de rendimiento o archivos dañados, sus copias de seguridad deberían estar lo suficientemente completas como para finalizar una restauración.

Para probar, realice su copia de seguridad más reciente y examine sus datos más importantes. Si aún está intacto, es probable que tenga una buena copia de seguridad.

En este punto, existe un riesgo, ya que no puede estar 100% seguro de que sus copias de seguridad sean buenas o que las copias de seguridad ahora no causen la pérdida de archivos. Sin embargo, la matriz se acaban en la cuneta y forzar una restauración de todos modos, por lo que esta es la única opción real.

Nathan C
fuente
Ya veo, ahora todo parece estar funcionando bien. Entonces, si puedo hacer una copia de seguridad completa de mi sistema en este momento, y reemplazo las unidades, reconstruyo la matriz y restauro esa copia de seguridad completa ... ¿Estoy arriesgando esta falla? ¿O es mejor reinstalar el SO y el Software y solo restaurar las bases de datos para minimizar el riesgo?
user72593
Los bloques defectuosos generalmente no ocurren a nivel de archivo. Solo haría esto si encontraste archivos corruptos.
Nathan C
@NathanC No obtienes "bloques malos", obtienes datos corruptos.
JamesRyan
@ user72593 El hecho de que pueda hacer una copia de seguridad de los archivos hoy no significa que no faltarán piezas. La única forma de ver qué es bueno o no es compararlo con las copias de seguridad.
JamesRyan
1
@JamesRyan Los "bloques defectuosos" pueden estar en cualquier parte del disco, incluidos el intercambio, los archivos temporales o el espacio utilizado anteriormente pero ahora sin usar. Cuando una unidad tiene bloques defectuosos, no siempre significa que se perdieron datos.
Nathan C
8

En este instante, haga lo siguiente:

  • Deje de rotar las copias de seguridad o eliminar las antiguas para este sistema. Desea conservar todas las copias de seguridad que tiene actualmente.
  • Realice una copia de seguridad completa del servidor.

Esperemos que los discos sigan siendo lo suficientemente buenos como para que sus datos estén intactos y no encuentre ningún problema al ejecutar la nueva copia de seguridad completa.

Luego deseche esos discos y cree una nueva matriz RAID. Una vez que esté listo, intente restaurar desde la copia de seguridad que tomó en este momento. Con suerte, eso será todo lo que necesitas hacer.

Si eso falla, pruebe el siguiente más antiguo y el siguiente más antiguo, etc. Asegúrese de probar la funcionalidad del sistema, solo porque se inicia, no significa que esté completamente operativo. Particularmente, pruebe las bases de datos en busca de corrupción.

Si tuvo que restaurar todo el sistema desde una copia de seguridad anterior, está bien. Realice las copias de seguridad más recientes y restaure solo los archivos de la base de datos y otros archivos importantes. Pruébelos para asegurarse de que funcionen correctamente. De nuevo, si eso falla, pruebe el siguiente más antiguo.

El uso de este proceso minimiza la pérdida de datos.

Conceder
fuente
Ya veo, eso responde a mi pregunta. Entonces, mientras mi copia de seguridad esté intacta, estoy bien, si no, entonces ... tengo que lidiar con eso. Gracias.
user72593
4

Las respuestas proporcionadas por Grant y Nathan C son excelentes en cuanto a cómo debe proceder en el manejo de las copias de seguridad / restauración, y en el tratamiento de la integridad de los datos.

Aquí hay algunos detalles más claros sobre cómo manejar el conjunto RAID cuando llega el momento de recrear el disco virtual y restaurar desde la copia de seguridad:

  • Verifique que tenga una buena copia de seguridad de los datos
  • Eliminar el disco virtual existente; Todos los discos deben mostrarse en un estado "listo" después
  • Recrea un nuevo disco virtual; Configuración recomendada: lectura anticipada adaptativa, reescritura y almacenamiento en caché de disco deshabilitado
  • Debe tener un disco virtual en línea con una inicialización en segundo plano en progreso.
  • Proceda con la restauración desde la copia de seguridad; La inicialización en segundo plano generalmente se ejecuta alrededor de 600GB / hr para husillos de 7.2K, así que déle una ventaja al init si su restauración de respaldo puede ejecutarse más rápido que eso, de lo contrario su software de respaldo podría tener algunos problemas con la latencia de escritura cuando no hay espacio nuevo disponible de inmediato. restaurar.

Nota : Si usted ha estado utilizando RAID 5, debería seriamente considerar el uso de RAID6 este momento. RAID5 no es confiable para los datos críticos del negocio de acuerdo con las mejores prácticas estándar actuales de la industria en una matriz de este tamaño. Los discos SATA / NL-SAS de gran capacidad también tienen un mayor riesgo de encontrar un URE durante las reconstrucciones, lo que resulta en un pinchazo como el que está tratando. RAID6 reduce enormemente este riesgo y es generalmente aceptable para datos críticos con capacidades de disco disponibles actualmente.

JimNim
fuente