Tengo un dispositivo NAS que tiene poco más de un mes. Está configurado para enviarme alertas por correo electrónico generadas a partir de los datos SMART de los discos duros. Después de un día, uno de los discos duros informó que un sector había salido mal y había sido reasignado. Durante la primera semana, ese número aumentó a seis sectores totales para el disco duro en cuestión. Después de un mes, el número se ubica en nueve sectores reasignados. La tasa definitivamente parece estar desacelerándose.
El NAS está configurado con seis unidades de 1,5 TB en una configuración RAID-5. Con unidades de tan alta capacidad, esperaría que un sector fallara de vez en cuando, por lo que no me preocupaba cuando los primeros sectores fueron reubicados. Sin embargo, me molesta que ninguno de los otros discos informe problemas.
¿A qué velocidad de reubicaciones, o número total de reubicaciones, debo comenzar a preocuparme por la salud del disco? ¿Podría esto variar según la capacidad de la unidad?
fuente
Respuestas:
Las unidades, como la mayoría de los componentes, tienen una tasa de falla en la curva de la bañera. Fallan mucho al principio, tienen una tasa de falla relativamente baja en el medio y luego fallan mucho al llegar al final de su vida.
Así como toda la unidad sigue esta curva, áreas particulares del disco también seguirán esta curva. Verá muchas reasignaciones de sectores al comienzo del uso de la unidad, pero esto debería disminuir. Cuando la unidad comienza a fallar al final de la vida, comenzará a perder más y más sectores.
No necesita preocuparse por 6 (dependiendo de la unidad, consulte al fabricante), pero debe observar y ver la frecuencia de cada nueva reasignación. Si el deterioro se acelera o permanece igual, preocúpese. De lo contrario, debería estar bien después del período inicial de rodaje.
-Adán
fuente
Al releer el documento de Google sobre el tema, " Tendencias de fallas en una gran población de unidades de disco ", creo que puedo decir con seguridad que la respuesta de Adam es incorrecta. En su análisis de una población de unidades extremadamente masiva, aproximadamente el 9% tenía recuentos de reasignación distintos de cero. La cita reveladora es esta:
Es aún más interesante cuando se trata de "reasignaciones fuera de línea", que son reasignaciones descubiertas durante la limpieza en segundo plano de la unidad, no durante las operaciones de E / S solicitadas. Su conclusión:
Mi política a partir de ahora será que las unidades con recuentos de reasignación distintos de cero deben programarse para su reemplazo.
fuente
Diferentes unidades probablemente tienen diferentes parámetros. En una unidad que verifiqué por última vez que era un disco de la serie empresarial de 1 TB de un proveedor, había 2048 sectores reservados para la reasignación.
Puede estimar el número de sectores reservados que buscan en el informe SMART en una unidad que tiene un número distinto de cero de sectores reasignados. Considere un informe sobre una unidad fallida a continuación.
Aquí se ha utilizado el 95% de su capacidad reservada, que es de 1955 sectores. Por lo tanto, la capacidad inicial era de aproximadamente 2057. De hecho, es 2048, la diferencia se debe al error de redondeo.
El SMART convierte la unidad en un estado de falla cuando el número de sectores reasignados alcanza un cierto umbral. Para la unidad en cuestión, este umbral se establece en el 64% de la capacidad reservada. Eso es aproximadamente 1310 sectores reasignados.
Sin embargo, los sectores reservados no se encuentran en un lapso continuo. En su lugar, se dividen en varios grupos, cada grupo se utiliza para reasignar sectores de una parte específica del disco. Esto se hace para mantener los datos locales en un área del disco.
La desventaja de la localidad es que el disco podría tener muchos sectores reservados. Sin embargo, un área ya puede quedarse sin capacidad reservada. En este caso, el comportamiento depende del firmware. En una unidad, observamos que entra en un estado FALLIDO y se bloquea cuando se produce un error en una parte que ya no está protegida.
fuente
Es posible que desee ejecutar una autocomprobación SMART larga, si la unidad lo admite. Esto puede brindarle más información sobre el estado de la unidad. Si su NAS no puede hacer esto, y si puede extraer la unidad o apagar el NAS durante unas horas, puede hacer la autocomprobación larga con el disco duro conectado a otra máquina.
fuente
Cuando una unidad así de nueva se comporta así, ¡no se puede confiar en absoluto!
Devuélvalo lo antes posible y obtenga una unidad de reemplazo.
fuente
Diferentes fabricantes tienen diferentes números de "pérdida aceptable" (la misma idea que con los monitores y los píxeles defectuosos). Consulte con el fabricante de la unidad para averiguar cuál es su estándar.
Sin embargo, parece una mala tendencia ...
fuente
Western Digital especialmente orgulloso por la tecnología que recupera el sector defectuoso en un tiempo aceptable en lugar de congelar el disco colocado en RAID, su nombre TLER ( http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery ). El tiempo es típicamente de 5..7 segundos.
Como descubrí en la web, hay unidades de disco WD con opción deshabilitada, pero algunas personas habilitaron esta característica en unidades WD ecológicas baratas y luego las colocaron en RAID.
La utilidad WDTLER se eliminó del sitio de soporte de WD pero se puede descubrir fácilmente a través de Google.
PD: uso esta utilidad solo para leer el estado y no uso RAID por ahora :)
fuente