Me pregunto si los resultados de esta autocomprobación SMART indican una unidad defectuosa, esta es la única unidad que aparece con 'completado: falla de lectura' en los resultados.
# smartctl -l selftest /dev/sde
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 90% 8981 976642822
# 2 Extended offline Aborted by host 90% 8981 -
# 3 Extended offline Completed: read failure 90% 8981 976642822
# 4 Extended offline Interrupted (host reset) 90% 8977 -
# 5 Extended offline Completed without error 00% 410 -
La unidad aún no muestra signos de falla, aparte de la salida de esa autocomprobación SMART. Esta es la salida de una unidad diferente en el mismo sistema que actualmente ejecuta una autocomprobación SMART
# smartctl -l selftest /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Self-test routine in progress 30% 15859 -
# 2 Extended offline Completed without error 00% 9431 -
# 3 Extended offline Completed without error 00% 8368 -
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 1
3 Spin_Up_Time 0x0027 176 175 021 Pre-fail Always - 4183
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 48
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 088 088 000 Old_age Always - 8982
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 46
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 34
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 13
194 Temperature_Celsius 0x0022 111 101 000 Old_age Always - 36
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 1
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 2
hard-drive
smart
Jeff Welling
fuente
fuente
smartctl -a /dev/sde
y publicara la sección etiquetadaSMART Attributes Data Structure
que contiene contadores sin procesar. En particular, el primero esRaw_Read_Error_Rate
cuál es el mejor indicador de "disco defectuoso" (y probablemente será! 0 en su caso).Respuestas:
Espero que haya reemplazado la unidad desde hace mucho tiempo, pero dado que nadie ha respondido directamente a la pregunta ...
Ejecutó dos pruebas, las cuales no pudieron leer el mismo sector lógico del disco, según lo indicado por
Completed: read failure
el mismo LBA en ambas pruebas. De hecho, esto indica que el disco tiene un defecto, y debería poder reemplazarlo bajo garantía. Intentar almacenar datos en este sector puede o no hacer que la unidad note que está defectuosa durante el proceso de escritura y reasignar el sector, pero si la unidad no se da cuenta y no puede leer los datos más adelante, ha perdido eso.fuente
¿Vale la pena arriesgar sus datos en una unidad sospechosa?
Si fuera yo, reemplazaría el disco y agradecería que SMART me ahorrara un gran dolor de cabeza.
fuente
Quiero agregar a los comentarios en la otra respuesta, pero no puedo debido a la falta de representación, imagínense.
No necesita hacer un script cron, hay un demonio smartd en el paquete smartmontools que maneja exactamente lo que desea hacer: comprobación regular del estado SMART. Todo lo que necesita es crear una configuración e iniciar el servicio. El paquete smartmontools también contiene algunos scripts de muestra que smartd puede llamar cuando algo comienza a fallar.
fuente
¿Qué haré en tu situación?
En primer lugar, descubro qué archivos están afectados. Hay algunas instrucciones sobre cómo hacer esto http://smartmontools.sourceforge.net/badblockhowto.html#e2_example1 Sí. En su caso, es más difícil porque tiene una matriz. Pero es posible. Luego, asegúrese de que este archivo esté respaldado, que escriba ceros en el sector que falla. Pueden suceder dos cosas. 1. La unidad escribe con éxito ceros en este sector. Current_Pending_Sector, Reallocated_Sector_Ct debería ser ceros después. 2. La unidad no puede escribir en este sector. Luego, reasigna este sector a un área "libre".
En cualquier caso, terminas con una unidad fija. Debe restaurar su archivo desde la copia de seguridad (porque sobrescribió un sector del mismo). También debe volver a ejecutar una autoprueba extendida para asegurarse de que no haya más errores.
¡Mantenerse sano!
PD: Sé que esta publicación es un poco antigua. Pero lo metí en gool. Y creo que es una buena idea proporcionar otra buena respuesta.
fuente
La unidad probablemente estaba saliendo. No poder leer desde una parte de la unidad es definitivamente una condición de falla, y ciertamente es posible que ocurra sin otros signos típicos de falla del disco. Este tipo de cosas no suele ser transitoria; sin otros signos, podría ser una cabeza débil, un problema de alineación muy leve o un área defectuosa en un plato (¿cilindro?).
La otra alternativa es que hubo un error INTELIGENTE; realmente no desea ejecutar una unidad con firmware defectuoso.
Cada vez que ve algún error de SMART, es una buena señal de que debe obtener una nueva unidad para evitar la pérdida de datos. Está pensado como un sistema de alerta temprana, en parte.
fuente
Copia de seguridad tan pronto como puedas!
Si esta unidad todavía está en garantía, entonces
badblocks
La herramienta también se puede utilizar para esto (ya tiene copias de seguridad, ¿verdad?)fuente
badblocks -w
(3x escritura, 3x lectura) sin crear nuevos sectores defectuosos, la conservaré. De lo contrario, está demasiado roto para usarlo en alguna parte.