¿Esta autocomprobación SMART indica una unidad defectuosa?

10

Me pregunto si los resultados de esta autocomprobación SMART indican una unidad defectuosa, esta es la única unidad que aparece con 'completado: falla de lectura' en los resultados.

# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)   LBA_of_first_error
# 1  Extended offline    Completed: read failure       90%      8981         976642822
# 2  Extended offline    Aborted by host               90%      8981         -
# 3  Extended offline    Completed: read failure       90%      8981         976642822
# 4  Extended offline    Interrupted (host reset)      90%      8977         -
# 5  Extended offline    Completed without error       00%       410         -

La unidad aún no muestra signos de falla, aparte de la salida de esa autocomprobación SMART. Esta es la salida de una unidad diferente en el mismo sistema que actualmente ejecuta una autocomprobación SMART

# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 30%     15859         -
# 2  Extended offline    Completed without error       00%      9431         -
# 3  Extended offline    Completed without error       00%      8368         -


SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       1
  3 Spin_Up_Time            0x0027   176   175   021    Pre-fail  Always       -       4183
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       48
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       8982
 10 Spin_Retry_Count        0x0032   100   253   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       46
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       34
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       13
194 Temperature_Celsius     0x0022   111   101   000    Old_age   Always       -       36
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       1
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       2
Jeff Welling
fuente
44
Sería mucho más útil si ejecutara smartctl -a /dev/sdey publicara la sección etiquetada SMART Attributes Data Structureque contiene contadores sin procesar. En particular, el primero es Raw_Read_Error_Ratecuál es el mejor indicador de "disco defectuoso" (y probablemente será! 0 en su caso).
Chris S
1
Adicional. . . . . . . . . .
Jeff Welling
1
Los datos que agregó se ven lo suficientemente bien. Si la unidad es parte de una matriz RAID, no me preocuparía. Debería hacer una copia de seguridad de sus archivos importantes en primer lugar; ahora es un buen momento para comenzar si no lo hace.
Chris S
44
@Jeff Welling: No ser un pedante al respecto, pero si su "copia de seguridad" está en la matriz RAID, no es una "copia de seguridad", es una "copia". Personalmente, si fuera yo, reemplazaría la unidad a la señal de falla de la unidad. Por el pequeño costo que existe incluso para un buen viaje en estos días, el seguro bien lo vale. Además, acabo de experimentar dos fallas en la unidad, en la misma matriz (RAID10), en el mismo día. De 6 que estaban en la matriz. FWIW
Kendall
1
@Kendall, creo que quiere decir que la matriz se usa para copias de seguridad y los originales están en otra parte. Si ese es el caso, lo arriesgaría, ya que es poco probable que dos unidades fallen (a menos que sean unidades nuevas, la mortalidad infantil es un problema común y la quema en una práctica común en matrices grandes).
Chris S

Respuestas:

8

Espero que haya reemplazado la unidad desde hace mucho tiempo, pero dado que nadie ha respondido directamente a la pregunta ...

Ejecutó dos pruebas, las cuales no pudieron leer el mismo sector lógico del disco, según lo indicado por Completed: read failureel mismo LBA en ambas pruebas. De hecho, esto indica que el disco tiene un defecto, y debería poder reemplazarlo bajo garantía. Intentar almacenar datos en este sector puede o no hacer que la unidad note que está defectuosa durante el proceso de escritura y reasignar el sector, pero si la unidad no se da cuenta y no puede leer los datos más adelante, ha perdido eso.

Michael Hampton
fuente
4

¿Vale la pena arriesgar sus datos en una unidad sospechosa?

Si fuera yo, reemplazaría el disco y agradecería que SMART me ahorrara un gran dolor de cabeza.

Pedacitos de tocino
fuente
Además, al menos configuraría un script cron para que se ejecute de manera inteligente una vez por semana en sus unidades y luego haga que le envíe el resultado en un informe o un correo electrónico cada semana para que en la mayoría de los casos pueda identificar con anticipación qué unidades podrían estar en sus últimos tramos para evitar tener que recuperarse de una falla y tener que restaurar desde las copias de seguridad. Más fácil aún si tiene varias máquinas está utilizando una herramienta de monitoreo como Nagios o Munin.
Wilshire
55
Eso es más fácil de hacer cuando sabes qué salida inteligente indica un disco defectuoso, es difícil saber qué indica y qué no indica un disco defectuoso.
Jeff Welling
4

Quiero agregar a los comentarios en la otra respuesta, pero no puedo debido a la falta de representación, imagínense.

No necesita hacer un script cron, hay un demonio smartd en el paquete smartmontools que maneja exactamente lo que desea hacer: comprobación regular del estado SMART. Todo lo que necesita es crear una configuración e iniciar el servicio. El paquete smartmontools también contiene algunos scripts de muestra que smartd puede llamar cuando algo comienza a fallar.

Sgaduuw
fuente
No estoy usando un script cron, estoy usando el demonio smartd. Escupe notas en el registro del sistema, noté algunas líneas que normalmente no veo en ninguna otra unidad e intenté una autocomprobación, que cuando verifiqué había fallado. Nunca había visto este tipo de fracaso antes, así que pensé que la gente aquí podría haberlo hecho. El resultado de syslog de smartd es bastante críptico si no tienes mucha experiencia con él, no te dice exactamente "Drive X está muriendo y necesita ser reemplazado", aunque sería bueno si lo hiciera :)
Jeff Welling
2

¿Qué haré en tu situación?

En primer lugar, descubro qué archivos están afectados. Hay algunas instrucciones sobre cómo hacer esto http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Sí. En su caso, es más difícil porque tiene una matriz. Pero es posible. Luego, asegúrese de que este archivo esté respaldado, que escriba ceros en el sector que falla. Pueden suceder dos cosas. 1. La unidad escribe con éxito ceros en este sector. Current_Pending_Sector, Reallocated_Sector_Ct debería ser ceros después. 2. La unidad no puede escribir en este sector. Luego, reasigna este sector a un área "libre".

En cualquier caso, terminas con una unidad fija. Debe restaurar su archivo desde la copia de seguridad (porque sobrescribió un sector del mismo). También debe volver a ejecutar una autoprueba extendida para asegurarse de que no haya más errores.

¡Mantenerse sano!

PD: Sé que esta publicación es un poco antigua. Pero lo metí en gool. Y creo que es una buena idea proporcionar otra buena respuesta.

Alexandr Priymak
fuente
1
información útil! Voy a probar esto ahora
kerridge0
0

La unidad probablemente estaba saliendo. No poder leer desde una parte de la unidad es definitivamente una condición de falla, y ciertamente es posible que ocurra sin otros signos típicos de falla del disco. Este tipo de cosas no suele ser transitoria; sin otros signos, podría ser una cabeza débil, un problema de alineación muy leve o un área defectuosa en un plato (¿cilindro?).

La otra alternativa es que hubo un error INTELIGENTE; realmente no desea ejecutar una unidad con firmware defectuoso.

Cada vez que ve algún error de SMART, es una buena señal de que debe obtener una nueva unidad para evitar la pérdida de datos. Está pensado como un sistema de alerta temprana, en parte.

Falcon Momot
fuente
0
  • Copia de seguridad tan pronto como puedas!

  • Si esta unidad todavía está en garantía, entonces

    • ejecutar la comprobación de proveedor de la utilidad (generalmente puede obtener un CD de arranque)
    • si esto devuelve un error, bingo, envíalo de vuelta y espera el reemplazo
    • Reinstalar desde el respaldo
    • problema resuelto - FIN

  • Si esta unidad no tiene garantía, entonces estás jodido
    • todavía hay algo de esperanza ...
    • como esto es en realidad un error de lectura, no significa que no pueda escribirle
    • después de hacer una copia de seguridad, puede intentar restaurar la copia de seguridad, ya que sobrescribirá los sectores ilegibles con datos nuevos que realmente puede leer (bueno, generalmente esto funciona, en el fondo, la unidad reasignará estos bloques a sectores de repuesto la mayor parte del tiempo )
    • badblocks La herramienta también se puede utilizar para esto (ya tiene copias de seguridad, ¿verdad?)
      • en realidad no usa esto para probar el disco (de todos modos, no tiene mucho sentido con discos nunca), sino para escribir en estos sectores varias veces
    • puede volver a ejecutar las pruebas inteligentes nuevamente y existe la posibilidad de que estos sectores ilegibles "se corrijan por sí mismos"
    • problema NO resuelto, solo hizo que la unidad dure más tiempo, probablemente fallará más rápido de lo normal, tal vez en un año, dependiendo de su uso, pero bueno, los discos son baratos, obtenga uno nuevo si sus datos son importantes para usted - FIN
cstamas
fuente
1
Los discos duros modernos (como desde el cambio de siglo) no funcionan de la manera descrita en la sección "sin garantía".
Chris S
3
Comience con el artículo del Sector Malo de Wikipedia . Los discos duros resumen la dirección del sector lógico y la asignan a sectores que considera buenos. Algunas utilidades del proveedor (a veces SMART, dependiendo de lo expuesto por la unidad) pueden informar sobre sectores reasignados. Se detectan sectores defectuosos en las operaciones de escritura normalmente. Por lo general, una vez que está escrito, puede leerse nuevamente; Es la operación de escritura inicial que comúnmente falla en sectores defectuosos. Una vez que un sector es malo, es malo para siempre, no hay que "corregirlo".
Chris S
1
Creo que no dije nada que vaya en contra de lo que estás diciendo, pero aclaré un poco para hacerlo más "técnicamente correcto".
cstamas
2
No estoy seguro de por qué la gente rechazó tanto su respuesta. Creo que eres perfecto. La gente probablemente malinterpretó que usted está abogando por mantener en funcionamiento un disco débil. Pero teniendo en cuenta que el OP es un usuario doméstico, el costo de un nuevo disco puede ser una preocupación, incluso a los precios actuales. Sé que esta es una pregunta bastante antigua, pero de mí, al menos, obtienes un +1. ;)
Markus A.
2
@cstamas: también puedo estar de acuerdo en que su respuesta es acertada: si una unidad sobrevive a una serie completa de badblocks -w(3x escritura, 3x lectura) sin crear nuevos sectores defectuosos, la conservaré. De lo contrario, está demasiado roto para usarlo en alguna parte.
mt_