Tenemos un antiguo servidor HP DL380G5, con 5 discos SCSI 3.5 '' de 300 GB en una matriz RAID5, en una bahía externa, formateado como un volumen lógico con un sistema de archivos ext3, que aloja 1.2 TB de datos de pacientes clínicos sensibles.
Dos discos mostraron fallas predictivas en hpacucli, así que reemplacé uno de ellos primero, y vi que estaba bien, pero no vi que también indica "Listo para la reconstrucción". Cambié totalmente descuidadamente el segundo también, y ahora dice que la INCURSIÓN FALLÓ.
Devolví el disco anterior, intenté reiniciar el servidor pero ahora me pone en modo de recuperación durante el arranque y dice que no puede encontrar el volumen lógico.
¿Algo que pueda hacer para intentar restaurar esto? No tenemos una copia de seguridad, por desgracia. Cualquier ayuda sería realmente apreciada!
Estaba pensando en devolver AMBAS unidades antiguas, ¿hay alguna posibilidad de que esto reviva el RAID?
Respuestas:
Lo siento. Pero este es un error del operador.
Tenía dos discos defectuosos en una matriz RAID5 y eliminó más discos de los que la matriz podía soportar.
Hacer esto sin ninguna copia de seguridad es el error más grande.
Debe comunicarse con una empresa de recuperación de datos para intentar recuperar los datos de la unidad lógica rota.
fuente
No vuelva a encender el sistema. Ciérrelo, llame a un servicio de recuperación de datos. Existen varios servicios que permiten la recuperación remota de este tipo de falla. En este punto, todo lo que puede hacer es empeorarlo.
Esto a menudo implica conectar todas las unidades directamente a un HBA bueno (¡no una tarjeta RAID u otro controlador!) Y comenzar una imagen de linux descargable específica con herramientas de administración remota. Luego, la empresa accede de forma remota al sistema, evalúa el estado del disco y recupera los metadatos RAID que quedan. Mediante el uso de software patentado, pueden volver a ensamblar un disco RAID virtual (detalles técnicos: a menudo algo que se conecta al sistema estándar de mapeo de dispositivos Linux). Esto expone el software RAID de solo lectura (sin acelerador RAID SoC). Los siguientes pasos son verificar que los datos no estén dañados más allá del uso y clonar el disco virtual en un nuevo disco para completar la recuperación de datos. Después de eso, puede preocuparse por volver a poner en funcionamiento el sistema.
Si bien no voy a nombrar ningún servicio aquí, la mayoría de ellos son fáciles de encontrar y para los que tienen servicios remotos (ahorrándole el viaje de ida y vuelta de enviarles las unidades RAID + unidad de recuperación y esperando la recuperación + clon y luego los envían de vuelta) obtiene el beneficio de que los datos nunca abandonen sus instalaciones.
Una pequeña cantidad de buenas noticias: siempre y cuando el controlador RAID (o usted) no haya escrito datos nuevos en ninguno de los discos, y la advertencia previa al fallo no sea una advertencia de fallo, existe prácticamente un 99.9999% de posibilidades Un buen equipo de recuperación de datos puede restaurar todo, y razonablemente rápido también.
fuente
Re: restaurar los viejos discos.
Debido a que su RAID está completamente muerta tal como está, tiene poco que perder al volver a instalar las dos unidades anteriores a la falla.
Instálelos en las bahías originales.
Recuerde que son previos a la falla, no fallaron por completo, por lo que existe una buena posibilidad de que se ejecuten el tiempo suficiente para rescatar sus datos.
Existe la posibilidad de que la incursión simplemente no aparezca, y una pequeña posibilidad de que el controlador solicite "reiniciar" la incursión (elija NO / CANCELAR) y una pequeña posibilidad de que el controlador de incursión reinicie automáticamente la incursión que negaría cualquier valor agregado por una empresa de recuperación de datos.
Por lo tanto, su máxima prioridad si surge el RAID es quitar los datos. Eso significa que tiene por lo menos 1,2 TB de espacio disponible y listo para copiar los datos fuera, y una herramienta como
robocopy
oxcopy32
, o en su caso de Linuxrsync
lista para funcionar. No querrá perder el tiempo leyendo páginas de manual y descifrando la sintaxis si sus unidades están desperdiciando sus últimos minutos.Una vez que sus datos estén seguros, vuelva a crear la incursión como una incursión6 con las nuevas unidades. Perderá 300 GB de capacidad, pero obtendrá una tolerancia de dos unidades. O agregue una unidad adicional y considere una incursión10 sobre 6 unidades. O considere retirar esta máquina por completo; el G5 tiene más de 10 años y ya no es adecuado para tareas de producción importantes.
Y no tratando de poner el arranque, pero configure una solución de respaldo adecuada también. Habrá una próxima vez.
fuente