Tengo una triste matriz RAID en una tarjeta 3ware 9650SE-16ML. Lo que no puedo decir es si acabo de sufrir una falla de doble disco (¡bummer!) O si estoy leyendo esto mal. La salida relativa de /c0 show all
es:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Y el fallo es (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Yo creo que lo que pasó es p0 fallado, y luego P1 tenía un error ECC (aka, mis datos se ha ido). Pero ... tal vez no? Se mantiene al 97% reconstruido, pero no puede superar este error.
Por lo que puedo decir, un administrador anterior apagó la verificación periódica, que es lo que nos llevó a este estado. ¡Esto no es algo por lo que la mayoría de las personas deba preocuparse con sus RAID 3Ware!
Actualizar
Después de golpearlo durante un par de días, hice el bit IgnoreECC y se reconstruyó, pero mis datos están guardados. Gorrón.
Respuestas:
El error de ECC significa que hay al menos un sector ilegible en la unidad. Sin embargo, si tiene suerte, ese sector podría no ser utilizado por el sistema de archivos ubicado en ese volumen, por lo tanto, aún podría copiar sus datos de la matriz en este estado.
También hay algunas opciones para ignorar los errores de ECC durante la reconstrucción:
Sin embargo, el uso de estas opciones significa que la banda RAID afectada por un sector defectuoso se dañará (no estoy seguro de qué hará exactamente la tarjeta en este caso; podría reemplazar toda la banda con ceros, o incluso con datos aleatorios), por lo tanto, " "matriz recuperada" en realidad podría tener daños indetectables (si la banda afectada estaba en el medio de algún archivo de datos). Copiar sus datos de la matriz a otro lugar antes de intentar reconstruir puede ser más seguro (al menos debería obtener errores al intentar leer el área incorrecta).
Debe configurar la verificación programada de la matriz para detectar sectores ilegibles antes, de modo que pueda reemplazar una unidad que acaba de comenzar a fallar.
fuente
Nunca he experimentado una unidad física (p0) para entrar en estado DEGRADED, sin embargo, es posible que pueda recuperar la unidad ECC-ERROR o incluso la unidad DEGRADED eliminándolas a través de
y luego emitiendo un reescaneo
ponerlos de nuevo en la unidad de banda a través de
Las unidades SATA que me fallaron con ECC-ERROR pude resucitar aunque solo fuera por unas horas antes de fallar nuevamente.
fuente
Es muy probable que sus datos hayan desaparecido. Error de ECC significa un error irrecuperable mientras se lee desde este disco.
Si no tiene una copia de seguridad, puede intentar volcar el estado actual de la matriz. Esto podría ser posible porque el controlador no sabe si perdió datos o solo un área vacía (carece de información sobre el sistema de archivos).
fuente