Estoy en un proceso de hacer una nueva instalación de Linux y antes de hacerlo pensé que es un buen momento para verificar el estado del disco duro, ya que puedo sobrescribir de forma segura cualquier dato en el disco duro si es necesario.
Primero intenté verificar con smartmontools ... My Seagate HDD informa un sector pendiente actual y uno fuera de línea no corregible (presumiblemente el mismo). El recuento de sector reasignado es cero.
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
...
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1
Sin embargo, las autoevaluaciones SMART (corta, larga, fuera de línea, transporte) no encuentran errores.
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 6631 -
# 2 Conveyance offline Completed without error 00% 6630 -
# 3 Extended offline Completed without error 00% 6622 -
# 4 Short offline Completed without error 00% 6600 -
# 5 Extended offline Completed without error 00% 6632 -
También intenté ejecutar badblocks -wsv ( prueba completa de lectura y escritura de 4 patrones aprobados) en la unidad y no se encontraron bloques defectuosos. Luego seguí la guía (en la medida de lo posible, ya que eliminé mi sistema de archivos después de ejecutar badblocks) que se encuentra aquí: http://smartmontools.sourceforge.net/badblockhowto.html
Ahí dice que si sobrescribo el sector con todos los ceros, el disco debería mover (reasignar) el sector pendiente. El último patrón de escritura de Badblocks es todo ceros, por lo que debería haberlo hecho. sin embargo, nada ha cambiado. Todavía tengo ese recuento de sector pendiente 1.
Luego intenté averiguar qué sector es el problemático y en la salida SMART hay un registro de errores:
Error 2 occurred at disk power-on lifetime: 5344 hours (222 days + 16 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 7c 1b 1a 02 ae Error: ABRT at LBA = 0x0e021a1b = 235018779
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
20 20 7f 18 1a 02 ae 00 00:09:05.228 READ SECTOR(S)
20 20 01 17 1a 02 ae 00 00:09:05.228 READ SECTOR(S)
20 20 01 01 00 00 a0 00 00:08:59.830 READ SECTOR(S)
91 20 3f 01 00 00 af 00 00:08:59.826 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 20 01 01 00 00 a8 00 00:08:59.678 RECALIBRATE [OBS-4]
Error 1 occurred at disk power-on lifetime: 5009 hours (208 days + 17 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 b7 8c 02 e0 Error: UNC at LBA = 0x00028cb7 = 167095
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 20 1e 9e 8c 02 e0 00 00:02:20.691 READ DMA EXT
25 20 1e 80 8c 02 e0 00 00:02:20.691 READ DMA EXT
25 20 1e 62 8c 02 e0 00 00:02:20.690 READ DMA EXT
25 20 1e 44 8c 02 e0 00 00:02:20.690 READ DMA EXT
25 20 1e 26 8c 02 e0 00 00:02:20.690 READ DMA EXT
Entonces, aparentemente, la unidad tenía dos errores.
84 51 7c 1b 1a 02 ae Error: ABRT at LBA = 0x0e021a1b = 235018779
y
40 51 00 b7 8c 02 e0 Error: UNC at LBA = 0x00028cb7 = 167095
Entonces asumí que estos son los números de sector: 167095 y 235018779. E intenté escribir ceros con dd:
dd if=/dev/zero of=/dev/sda bs=512 count=1 seek=167095
Ahora que lo hizo bien. Sin embargo, cuando intenté con el otro sector:
dd if=/dev/zero of=/dev/sda bs=512 count=1 seek=235018779
Obtengo dd: '/ dev / sda': no se puede buscar: argumento no válido . Luego descubrí que mi HDD solo tiene 234441658 sectores. Entonces esto está fuera de alcance. Pero entonces, ¿por qué SMART informó un error en esa dirección?
¿Alguien puede ayudarme a resolver eso y también aconsejarme cómo hacerlo correctamente si lo estoy haciendo mal? Sospecho que tal vez estoy equivocado al usar el tamaño de bloque 512 con dd. Ese es el tamaño del sector informado por SMART. tal vez esas direcciones LBA son bytes, no bloques. Intenté configurar bs = 1 y escribir solo un byte en esas direcciones en el HDD. Eso funcionó (proceso de escritura de dd) ... Sin embargo, el recuento de sector pendiente aún no cambió después de eso. También llamé a sync y smartctl -t offline / dev / sda para intentar 'forzar' el disco para reasignar el sector. Nada...
Aquí está mi smartctl completo --todos / dev / sda de salida:
smartctl 5.43 2012-06-30 r3573 [i686-linux-2.6.32-358.el6.i686] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net
=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.9
Device Model: ST3120811AS
Serial Number: 6PT1N4VZ
Firmware Version: 3.AAE
User Capacity: 120,034,123,776 bytes [120 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 7
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Nov 18 12:03:00 2013 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 51) minutes.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 084 077 006 Pre-fail Always - 185600113
3 Spin_Up_Time 0x0003 095 095 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 098 098 020 Old_age Always - 2185
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 073 055 030 Pre-fail Always - 25890559714
9 Power_On_Hours 0x0032 093 093 000 Old_age Always - 6632
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 098 098 020 Old_age Always - 2229
187 Reported_Uncorrect 0x0032 099 099 000 Old_age Always - 1
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 071 056 045 Old_age Always - 29 (Min/Max 25/29)
194 Temperature_Celsius 0x0022 029 044 000 Old_age Always - 29 (0 13 0 0 0)
195 Hardware_ECC_Recovered 0x001a 052 046 000 Old_age Always - 194244099
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 1
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 1
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 066 219 000 Old_age Always - 34
SMART Error Log Version: 1
ATA Error Count: 2
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 2 occurred at disk power-on lifetime: 5344 hours (222 days + 16 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 7c 1b 1a 02 ae Error: ABRT at LBA = 0x0e021a1b = 235018779
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
20 20 7f 18 1a 02 ae 00 00:09:05.228 READ SECTOR(S)
20 20 01 17 1a 02 ae 00 00:09:05.228 READ SECTOR(S)
20 20 01 01 00 00 a0 00 00:08:59.830 READ SECTOR(S)
91 20 3f 01 00 00 af 00 00:08:59.826 INITIALIZE DEVICE PARAMETERS [OBS-6]
10 20 01 01 00 00 a8 00 00:08:59.678 RECALIBRATE [OBS-4]
Error 1 occurred at disk power-on lifetime: 5009 hours (208 days + 17 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 b7 8c 02 e0 Error: UNC at LBA = 0x00028cb7 = 167095
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 20 1e 9e 8c 02 e0 00 00:02:20.691 READ DMA EXT
25 20 1e 80 8c 02 e0 00 00:02:20.691 READ DMA EXT
25 20 1e 62 8c 02 e0 00 00:02:20.690 READ DMA EXT
25 20 1e 44 8c 02 e0 00 00:02:20.690 READ DMA EXT
25 20 1e 26 8c 02 e0 00 00:02:20.690 READ DMA EXT
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 6631 -
# 2 Conveyance offline Completed without error 00% 6630 -
# 3 Extended offline Completed without error 00% 6622 -
# 4 Short offline Completed without error 00% 6600 -
# 5 Extended offline Completed without error 00% 6632 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
ACTUALIZAR:
Como se sugiere en la respuesta de rob, intenté sobrescribir todo el HDD con ceros. Verifiqué los valores SMART y luego comencé a leer todo el HDD. Nuevamente comprobado los valores SMART. El resultado es: los valores SMART con respecto al recuento de sectores pendientes / reasignados no cambian, en ambos casos, inmediatamente después de la escritura y luego después de la lectura. Reasignado 0. Pendiente 1.
fuente
Respuestas:
Un sector se marca como pendiente cuando falla una lectura. El sector pendiente se marcará como reasignado si falla una escritura posterior. Si la escritura tiene éxito, se elimina de los sectores pendientes actuales y se supone que está bien. (El comportamiento exacto podría diferir ligeramente y lo abordaré más adelante, pero esta es una aproximación lo suficientemente cercana por ahora).
Cuando ejecuta
badblocks -w
, cada patrón primero se escribe, luego se lee. Es posible que la escritura en el sector escamoso tenga éxito, pero la lectura posterior falla, lo que nuevamente lo agrega a la lista de sectores pendientes. Intentaría escribir ceros en todo el disco condd if=/dev/zero of=/dev/sda
, verificar el estado SMART, luego leer todo el disco condd if=/dev/sda of=/dev/null
y verificar el estado SMART nuevamente.Actualizar:
Según sus resultados anteriores con
badblocks -w
, habría esperado que el sector pendiente se borrara después de escribir todo el disco. Pero como eso no sucedió, es seguro decir que este disco no se está comportando como se esperaba.Repasemos la descripción del recuento actual del sector pendiente :
Ahora repasemos los puntos importantes:
En otras palabras, el sector pendiente debería haberse reasignado de inmediato, o la unidad debería haber intentado escribir en el sector y una de dos cosas debería haber sucedido:
Ya indiqué esto antes, pero la descripción de Wikipedia del sector pendiente actual sugiere que el recuento actual del sector pendiente siempre debe ser cero después de una escritura completa en el disco . Como ese no es el caso aquí, podemos concluir que (a) Wikipedia está mal (o al menos es incorrecta para su unidad), o (b) el firmware de la unidad no puede manejar adecuadamente este estado de error (lo que consideraría un error de firmware )
Dado que el recuento de sector pendiente actual sigue sin cambios después de leer la unidad completa, podemos afirmar que (a) el sector no se pudo leer correctamente o (b) el sector se leyó correctamente y se marcó como correcto, pero hubo un error al leer un sector diferente Pero dado que el recuento del sector reasignado sigue siendo 0 después de la lectura, podemos excluir (b) como una posibilidad y podemos concluir que el sector pendiente aún era ilegible.
En este punto, sería útil saber si la unidad ha registrado algún error SMART nuevo. Mi siguiente sugerencia sería verificar si Seagate tiene una actualización de firmware para su unidad, pero parece que no.
Aunque recomendaría no seguir usando esta unidad, parece que podría estar dispuesto a aceptar los riesgos involucrados (es decir, que podría continuar actuando de manera errática y / o podría degradarse o fallar aún más catastróficamente). En ese caso, puede intentar instalar Linux, iniciar desde un CD de rescate y luego (con los sistemas de archivos desmontados) usar e2fsck -l filename para marcar manualmente el bloque apropiado como incorrecto. (¡Solo asegúrese de mantener buenas copias de seguridad!)
e2fsck -l nombrearchivo
(Tenga en cuenta que
e2fsck -c
es preferible hacerloe2fsck -l filename
, y es posible que incluso desee probarlo, pero en función de sus resultados hasta el momento, dudo mucho que e2fsck -c encuentre bloques defectuosos).Por supuesto, tendrá que hacer algunos cálculos aritméticos para convertir el LBA del sector defectuoso (como lo proporciona SMART) en un número de bloque del sistema de archivos. El Bad Blocks HowTo proporciona una fórmula práctica:
El HowTo también contiene un ejemplo completo con esta fórmula. Después de instalar el sistema operativo, puede confirmar si un archivo está ocupando el sector escamoso utilizando debugfs (consulte el Cómo para obtener instrucciones detalladas).
Otra opción: particionar alrededor del bloque defectuoso sospechoso Cuando instala su sistema operativo, también puede intentar particionar el error. Si hice bien mi cálculo, el error es de alrededor de 81.589 MB, por lo que puede hacer / arrancar un poco pequeño e iniciar su próxima partición después del sector 167095, u omitir los primeros 82 MB más o menos por completo.
ABRT 235018779 Desafortunadamente, en cuanto al error ABRT en el sector 235018779, solo podemos especular, pero la especificación ATA8-ACS nos da algunas pistas.
Del Borrador de Trabajo AT Adjunto 8 - Conjunto de comandos ATA / ATAPI (ATA8-ACS) :
Mirando los comandos que conducen al ABRT (varios READ SECTOR (S) seguidos de recalibración y reinicialización) ...
Abortar se establecerá en uno si el comando no es compatible. - Esto parece poco probable.
Abortar puede establecerse en uno si el dispositivo no puede completar la acción solicitada por el comando. - Quizás la lista P de sectores reasignados desplaza las direcciones accesibles para el usuario lo suficiente como para que una dirección accesible para el usuario se traduzca al sector 235018779, y la operación de lectura no pudo completarse (por qué razón, no sabemos ... pero no hubo un error de CRC, por lo que no creo que podamos concluir que el sector 235018779 es malo).
Abortar también se establecerá en uno si se solicita una dirección fuera del rango de direcciones accesibles para el usuario si IDNF no se establece en uno. - Para mí esto parece muy probable, y probablemente lo interpretaría como el resultado de un error de software (ya sea su sistema operativo o algún programa que estaba ejecutando). En ese caso, no es una señal de muerte inminente para el disco duro.
En caso de que aún no estés cansado de ejecutar diagnósticos ...
Puede intentar
smartctl -t long /dev/sda
nuevamente para ver si produce más errores en el registro SMART, o puede dejarlo como un archivo X sin resolver ;) y verificar el registro SMART periódicamente para ver si vuelve a ocurrir. En cualquier caso, si continúa utilizando la unidad sin lograr que reasigne o borre el sector pendiente, ya está asumiendo un riesgo.Use un sistema de archivos de suma de verificación
Para un poco más de seguridad, puede considerar usar un sistema de archivos de suma de verificación como ZFS o btrfs para ayudar a proteger contra la corrupción de datos de bajo nivel. Y no olvide realizar copias de seguridad frecuentes si tiene algo que no se puede reproducir fácilmente.
fuente
El artículo Reasignación de sectores defectuosos proporciona el algoritmo utilizado.
Hay dos listas de defectos en el disco duro:
Por lo tanto, el hecho de que su sector defectuoso sea 577121 sectores más allá del último sector normal no significa que tenga 577121 sectores defectuosos, a menos que sea un defecto de la lista P. Se puede colocar un defecto de la lista G en cualquier lugar, por lo que es muy posible que el firmware lo haya asignado al final del espacio libre del sector.
De los atributos de Wikipedia ATA SMART conocidos :
De hecho, los errores pendientes son mucho peores que la reasignación, ya que el error es lo suficientemente difícil como para evitar leer el contenido original para reasignar. En efecto, los contenidos de ese sector probablemente se pierdan para siempre.
El documento MHDD Herramienta de diagnóstico de disco duro de muy bajo nivel explica los códigos de error como:
Por lo tanto, el sector 167095 no se puede corregir y se anuló la lectura / escritura al 235018779.
Como escribir a ambos sectores no cambió el estado de pendiente a reasignado, me parece que el sector de reemplazo también es malo. Mi teoría es que el sector 167095 se reasignó al sector 235018779, pero que desafortunadamente este último también es malo, y que el firmware no sabe cómo reasignar los sectores de repuesto defectuosos. El resultado es un sector defectuoso que no se puede corregir.
fuente