¿Está fallando mi disco duro?

42

Solo intenté ejecutar una prueba en mi disco duro y no quiere completar una autocomprobación. Aquí está el resultado:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Entonces, ¿está fallando este disco?

Michel
fuente
Cuando uso la herramienta gráfica dice autocomprobación fallida
Michel
3
Los read failuremensajes repetidos generalmente indican un disco defectuoso, así que sí ...
HBruijn
23
Michel, bienvenido a SF, y gracias por una buena primera pregunta. Como puede ver si decide quedarse en estas partes (lo cual espero que lo haga), una buena primera pregunta es algo raro y precioso. Tenía una hipótesis apropiada para el sitio ( "mi HDD está fallando "), encontró la herramienta relevante y aprendió a usarla, pero necesitaba ayuda para interpretar los resultados. Así que viniste aquí, nos diste toda la información relevante, sin basura sobrante, e hiciste una pregunta que era un modelo de concisión. Gracias, por favor, quédate!
MadHatter apoya a Monica el
3
+1: Excelente primera pregunta. Para aprovechar al máximo la falla del servidor, registre su cuenta y consulte algunos de los otros sitios en la red de Stack Exchange . Esperamos verte contribuir con más contenido de alta calidad a Stack Exchange.
bwDraco

Respuestas:

43

Su disco está muy feliz de hacer una autocomprobación; Del resumen, ha hecho más de cinco de ellos en la última hora. Y todos ellos han fallado, al principio de la prueba, con errores de lectura.

Sí, este disco duro está fallando. Como decía el famoso informe de Google Labs (aunque no puedo poner mi mano en un enlace en este momento), si smartctldice que su unidad está fallando, probablemente lo esté (parafraseando).

Editar : no intentes guardarlo. Obtenga todos los datos y reemplácelos.

MadHatter apoya a Monica
fuente
99
Si está fallando, está fallando. Repararlo puede ser técnicamente posible, pero extremadamente improbable que sea rentable en comparación con el costo de una nueva unidad.
Sobrique
77
@Michel La ausencia de un error de autocomprobación no es prueba de que una unidad no falla, lamentablemente, pero la presencia de un error de autocomprobación siempre debe considerarse una prueba de que está fallando.
Rob Moir
1
@Michel: Podrías intentar reemplazar los cables. A veces, una unidad puede fallar no debido a problemas en la unidad, sino debido a una mala alimentación o cables de datos.
Thomas Padron-McCarthy
1
@ JorgeNerín: Creo que usted hace un excelente punto, pero la evidencia es que tanto yo como el OP ya lo entendemos, el OP debe, ya que ha iniciado al menos cinco de ellos en las últimas dos horas. En cuanto a las pruebas, estoy de acuerdo con usted en que una prueba larga sería un mejor indicador de que la unidad está en buen estado, pero cuando falla tanto en las pruebas cortas como en las de transporte en el primer 10% de la unidad, creo que podemos concluir razonablemente que la unidad es Disparo. ¿Qué esperas que se revele con pruebas más extensas?
MadHatter apoya a Mónica el
2
@ JorgeNerín <grin> eso tiene sentido! Solo hablé así porque el OP comenzó antropomorfizando su disco: " Intenté ejecutar una prueba en mi disco duro y no quiere completar una autocomprobación ". ¡No creo que ninguno de nosotros piense que el disco está vivo, ni que programe las autocomprobaciones por sí solo!
MadHatter apoya a Monica el
10

Para responder a su pregunta, una prueba SMART fallida es una indicación segura de una falla inminente de la unidad. Debe hacer una copia de seguridad de sus datos y reemplazar la unidad lo antes posible para evitar la posible pérdida de datos.

@ sj0h mencionó el recuento del ciclo de carga, que es muy alto en 447,630. (La mayoría de los discos duros modernos están diseñados para soportar 600,000 ciclos de carga / descarga). Esto generalmente es causado por la función Advanced Power Management (APM), que intenta ahorrar energía al estacionar los cabezales (descargándolos de los platos) después de varios segundos de ocioso. Las cabezas se vuelven a cargar en los platos cuando es necesario. En la mayoría de los sistemas, donde los discos duros obtienen actividad intermitente, esto puede causar que ocurran muchos ciclos de carga / descarga. Para desactivar APM, ejecute el siguiente comando en el indicador raíz:

smartctl -s apm,off /dev/sda

Este comando deberá ejecutarse cada vez que el sistema se apague y se apague o la unidad se apague, ya que esta configuración no se conserva cuando la unidad se apaga.

En mi experiencia, hacer esto reducirá drásticamente la cantidad de ciclos de carga / descarga y, en consecuencia, las posibilidades de que experimente este tipo de falla nuevamente en el futuro. Sin embargo, tenga en cuenta que esto aumenta el consumo de energía y la temperatura de la unidad. Si la unidad funciona constantemente a temperaturas superiores a 50 ° C, aumenta el riesgo de falla prematura, por lo que es posible que desee dejar APM encendido (o encenderlo si está apagado) durante los meses más cálidos.

bwDraco
fuente
2

Además de las fallas de lectura, considere también el Conteo del ciclo de carga. Cerca de 500,000 esto puede indicar una razón para la falla, o al menos un alto desgaste del ciclo de carga. Hay un ciclo de carga por cada minuto de tiempo de encendido. Después de reemplazar la unidad, asegúrese de que la nueva unidad no esté haciendo esto también.

sj0h
fuente
Muy buena observación. ¿Cómo se puede diagnosticar por qué la unidad gira y retrocede cada minuto?
dotancohen
@dotancohen, mira mi respuesta: la culpa es de APM.
bwDraco
2

Sí, tiene 16 sectores ilegibles, ha intentado hacer varias pruebas que han fallado en aproximadamente la misma área de la unidad, por lo tanto, haga una copia de seguridad rápidamente, pero tenga en cuenta que ya tiene datos inaccesibles en las cercanías de sectores 92290592, 92290596.

Es posible que tenga otras áreas problemáticas, aún no sabe si esos 16 sectores son consecutivos o separados, si desea jugar después de la copia de seguridad, puede hacer una autoevaluación selectiva con -t select, startlba-endlba.

Current_Pending_Sector significa que el firmware del disco duro ha intentado leerlo, pero no puede, lo intentará varias veces más (siempre que el sistema operativo lo solicite) hasta que falle y lo marque como Offline_Uncorrectable o sustituirá el sector dañado por otro sector de repuesto si el El sistema operativo escribe en él (lo que aumenta Reallocated_Sector_Ct al hacerlo).

Jorge Nerín
fuente
1

Yo personalmente reemplazaría el disco. Si, por alguna razón, no quiere hacer eso todavía, pero aún persiste con la unidad, necesita alguna forma de asegurarse de que no utiliza accidentalmente las áreas defectuosas para archivos nuevos.

Tenía una unidad de disco en una Mac vieja que solo grababa video, y decidí que no quería cambiarla todavía, ya que era agradable tener los videos. Entonces necesitaba aislar los errores. Primero creé una carpeta vacía solo para archivos defectuosos, y luego intenté leer todos los archivos existentes en el disco y cualquiera de los que tenía un error fue trasladado al directorio de archivos defectuosos (con suerte solo sin importancia).

Luego creé muchos archivos de un megabyte con un nombre único para llenar el disco duro (por lo que todo el espacio vacío ahora estaba en uno de estos archivos de 1 MB) y luego repití el procedimiento. Todos los archivos con errores en ellos, se movieron al directorio de archivos incorrectos, y los que quedaron eran buenos y podían eliminarse para recuperar el espacio incorrecto.

Ahora puede usar el disco un poco más, pero no lo use para cosas importantes. Se va a fallar más y es muy probable que sea un inconveniente cuando sucede.

Thorbjørn Ravn Andersen
fuente
1

Esta no es una muy buena señal. Debe asegurarse de que los contenidos del disco estén respaldados, y no usar el disco para nada importante.

Sin embargo, he visto discos con sectores fallidos que los reasignaron y permanecieron operativos durante años, por lo que puede mantenerlo durante un tiempo, por ejemplo, para cosas sin importancia o copias de seguridad adicionales.

Una cosa que hacer entonces sería ver qué archivos fueron dañados por los sectores ilegibles y escribir en estos sectores para forzar la reasignación del disco (moviéndolos de "Current_Pending_Sector" a "Reallocated_Sector_Ct"). Si usa Linux, consulte http://smartmontools.sourceforge.net/badblockhowto.html . Una vez que los sectores han sido reasignados, la autocomprobación debe aprobar o informar más sectores ilegibles.

No estoy de acuerdo con la mayoría de las respuestas porque no creo que los sectores defectuosos sean necesariamente una indicación de fracaso inminente. Como dice http://blog.mmueh.net/index.php/2010/12/09/luks-meets-badblocks/ , "cada disco duro comienza a producir sectores defectuosos en algún momento de su vida".

a3nm
fuente
Si bien estoy de acuerdo en que la falla no es segura con un sector defectuoso, la probabilidad de que un controlador falle después de que un sector defectuoso aumenta significativamente (creo que eso también estaba en el informe de Google, pero no puedo encontrar la fuente real actualmente)
Dennis Nolte