Intentando eliminar / diagnosticar un único Current_Pending_Sector en datos SMART

18

Estoy en un proceso de hacer una nueva instalación de Linux y antes de hacerlo pensé que es un buen momento para verificar el estado del disco duro, ya que puedo sobrescribir de forma segura cualquier dato en el disco duro si es necesario.

Primero intenté verificar con smartmontools ... My Seagate HDD informa un sector pendiente actual y uno fuera de línea no corregible (presumiblemente el mismo). El recuento de sector reasignado es cero.

5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
...
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1

Sin embargo, las autoevaluaciones SMART (corta, larga, fuera de línea, transporte) no encuentran errores.

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      6631         -
# 2  Conveyance offline  Completed without error       00%      6630         -
# 3  Extended offline    Completed without error       00%      6622         -
# 4  Short offline       Completed without error       00%      6600         -
# 5  Extended offline    Completed without error       00%      6632         -

También intenté ejecutar badblocks -wsv ( prueba completa de lectura y escritura de 4 patrones aprobados) en la unidad y no se encontraron bloques defectuosos. Luego seguí la guía (en la medida de lo posible, ya que eliminé mi sistema de archivos después de ejecutar badblocks) que se encuentra aquí: http://smartmontools.sourceforge.net/badblockhowto.html

Ahí dice que si sobrescribo el sector con todos los ceros, el disco debería mover (reasignar) el sector pendiente. El último patrón de escritura de Badblocks es todo ceros, por lo que debería haberlo hecho. sin embargo, nada ha cambiado. Todavía tengo ese recuento de sector pendiente 1.
Luego intenté averiguar qué sector es el problemático y en la salida SMART hay un registro de errores:

Error 2 occurred at disk power-on lifetime: 5344 hours (222 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 7c 1b 1a 02 ae  Error: ABRT at LBA = 0x0e021a1b = 235018779

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  20 20 7f 18 1a 02 ae 00      00:09:05.228  READ SECTOR(S)
  20 20 01 17 1a 02 ae 00      00:09:05.228  READ SECTOR(S)
  20 20 01 01 00 00 a0 00      00:08:59.830  READ SECTOR(S)
  91 20 3f 01 00 00 af 00      00:08:59.826  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 20 01 01 00 00 a8 00      00:08:59.678  RECALIBRATE [OBS-4]

Error 1 occurred at disk power-on lifetime: 5009 hours (208 days + 17 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 b7 8c 02 e0  Error: UNC at LBA = 0x00028cb7 = 167095

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 20 1e 9e 8c 02 e0 00      00:02:20.691  READ DMA EXT
  25 20 1e 80 8c 02 e0 00      00:02:20.691  READ DMA EXT
  25 20 1e 62 8c 02 e0 00      00:02:20.690  READ DMA EXT
  25 20 1e 44 8c 02 e0 00      00:02:20.690  READ DMA EXT
  25 20 1e 26 8c 02 e0 00      00:02:20.690  READ DMA EXT

Entonces, aparentemente, la unidad tenía dos errores.

84 51 7c 1b 1a 02 ae  Error: ABRT at LBA = 0x0e021a1b = 235018779

y

40 51 00 b7 8c 02 e0  Error: UNC at LBA = 0x00028cb7 = 167095

Entonces asumí que estos son los números de sector: 167095 y 235018779. E intenté escribir ceros con dd:

dd if=/dev/zero of=/dev/sda bs=512 count=1 seek=167095

Ahora que lo hizo bien. Sin embargo, cuando intenté con el otro sector:

dd if=/dev/zero of=/dev/sda bs=512 count=1 seek=235018779

Obtengo dd: '/ dev / sda': no ​​se puede buscar: argumento no válido . Luego descubrí que mi HDD solo tiene 234441658 sectores. Entonces esto está fuera de alcance. Pero entonces, ¿por qué SMART informó un error en esa dirección?

¿Alguien puede ayudarme a resolver eso y también aconsejarme cómo hacerlo correctamente si lo estoy haciendo mal? Sospecho que tal vez estoy equivocado al usar el tamaño de bloque 512 con dd. Ese es el tamaño del sector informado por SMART. tal vez esas direcciones LBA son bytes, no bloques. Intenté configurar bs = 1 y escribir solo un byte en esas direcciones en el HDD. Eso funcionó (proceso de escritura de dd) ... Sin embargo, el recuento de sector pendiente aún no cambió después de eso. También llamé a sync y smartctl -t offline / dev / sda para intentar 'forzar' el disco para reasignar el sector. Nada...

Aquí está mi smartctl completo --todos / dev / sda de salida:

smartctl 5.43 2012-06-30 r3573 [i686-linux-2.6.32-358.el6.i686] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.9
Device Model:     ST3120811AS
Serial Number:    6PT1N4VZ
Firmware Version: 3.AAE
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Mon Nov 18 12:03:00 2013 UTC
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                    was completed without error.
                    Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (  430) seconds.
Offline data collection
capabilities:            (0x5b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    No Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (  51) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   077   006    Pre-fail  Always       -       185600113
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2185
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   073   055   030    Pre-fail  Always       -       25890559714
  9 Power_On_Hours          0x0032   093   093   000    Old_age   Always       -       6632
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   098   098   020    Old_age   Always       -       2229
187 Reported_Uncorrect      0x0032   099   099   000    Old_age   Always       -       1
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   056   045    Old_age   Always       -       29 (Min/Max 25/29)
194 Temperature_Celsius     0x0022   029   044   000    Old_age   Always       -       29 (0 13 0 0 0)
195 Hardware_ECC_Recovered  0x001a   052   046   000    Old_age   Always       -       194244099
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       1
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   066   219   000    Old_age   Always       -       34

SMART Error Log Version: 1
ATA Error Count: 2
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 2 occurred at disk power-on lifetime: 5344 hours (222 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 7c 1b 1a 02 ae  Error: ABRT at LBA = 0x0e021a1b = 235018779

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  20 20 7f 18 1a 02 ae 00      00:09:05.228  READ SECTOR(S)
  20 20 01 17 1a 02 ae 00      00:09:05.228  READ SECTOR(S)
  20 20 01 01 00 00 a0 00      00:08:59.830  READ SECTOR(S)
  91 20 3f 01 00 00 af 00      00:08:59.826  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 20 01 01 00 00 a8 00      00:08:59.678  RECALIBRATE [OBS-4]

Error 1 occurred at disk power-on lifetime: 5009 hours (208 days + 17 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 00 b7 8c 02 e0  Error: UNC at LBA = 0x00028cb7 = 167095

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  25 20 1e 9e 8c 02 e0 00      00:02:20.691  READ DMA EXT
  25 20 1e 80 8c 02 e0 00      00:02:20.691  READ DMA EXT
  25 20 1e 62 8c 02 e0 00      00:02:20.690  READ DMA EXT
  25 20 1e 44 8c 02 e0 00      00:02:20.690  READ DMA EXT
  25 20 1e 26 8c 02 e0 00      00:02:20.690  READ DMA EXT

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      6631         -
# 2  Conveyance offline  Completed without error       00%      6630         -
# 3  Extended offline    Completed without error       00%      6622         -
# 4  Short offline       Completed without error       00%      6600         -
# 5  Extended offline    Completed without error       00%      6632         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

ACTUALIZAR:

Como se sugiere en la respuesta de rob, intenté sobrescribir todo el HDD con ceros. Verifiqué los valores SMART y luego comencé a leer todo el HDD. Nuevamente comprobado los valores SMART. El resultado es: los valores SMART con respecto al recuento de sectores pendientes / reasignados no cambian, en ambos casos, inmediatamente después de la escritura y luego después de la lectura. Reasignado 0. Pendiente 1.

Ivan Kovacevic
fuente
1
Supongo que su unidad tiene 234441658 sectores, pero los sectores de respaldo reasignados en lugar de sectores defectuosos no cuentan en este número.
gronostaj
Hmm, entonces ese error en el sector 235018779 significaría un error en los sectores de respaldo ... ¿Es eso posible?
Ivan Kovacevic
1
Bueno, los sectores de respaldo también pueden estar corruptos. De lo contrario, haríamos discos duros "inmortales" solo de sectores de respaldo.
gronostaj
:)… Bueno, mi razonamiento fue que los sectores de respaldo no están en uso (y por lo tanto son seguros). Supuse que la superficie del HDD solo puede corromperse si los cabezales del disco hacen una acción inadecuada, debido a una falla de energía o algo así.
Ivan Kovacevic
1
Suponiendo que el sector 235018779 es un sector de respaldo. Eso significa que debería tener al menos 235018779 - 234441658 = 577121 sectores de respaldo. Eso es casi 282 MB en sectores de respaldo. Me parece mucho (demasiado). ¿O es eso? Solo pensando en voz alta, ¿tal vez no es un sector de respaldo sino un problema técnico en los diagnósticos SMART?
Ivan Kovacevic

Respuestas:

15

Un sector se marca como pendiente cuando falla una lectura. El sector pendiente se marcará como reasignado si falla una escritura posterior. Si la escritura tiene éxito, se elimina de los sectores pendientes actuales y se supone que está bien. (El comportamiento exacto podría diferir ligeramente y lo abordaré más adelante, pero esta es una aproximación lo suficientemente cercana por ahora).

Cuando ejecuta badblocks -w, cada patrón primero se escribe, luego se lee. Es posible que la escritura en el sector escamoso tenga éxito, pero la lectura posterior falla, lo que nuevamente lo agrega a la lista de sectores pendientes. Intentaría escribir ceros en todo el disco con dd if=/dev/zero of=/dev/sda, verificar el estado SMART, luego leer todo el disco con dd if=/dev/sda of=/dev/nully verificar el estado SMART nuevamente.

Actualizar:

Según sus resultados anteriores con badblocks -w, habría esperado que el sector pendiente se borrara después de escribir todo el disco. Pero como eso no sucedió, es seguro decir que este disco no se está comportando como se esperaba.

Repasemos la descripción del recuento actual del sector pendiente :

Recuento de sectores "inestables" (esperando ser reasignados, debido a errores de lectura irrecuperables). Si un sector inestable se lee posteriormente con éxito, el sector se reasigna y este valor disminuye. Los errores de lectura en un sector no reasignarán el sector inmediatamente (ya que no se puede leer el valor correcto y, por lo tanto, no se conoce el valor para reasignar, y también podría volverse legible más adelante); en cambio, el firmware de la unidad recuerda que el sector necesita ser reasignado, y lo reasignará la próxima vez que se escriba. [29] Sin embargo, algunas unidades no reasignarán inmediatamente dichos sectores cuando se escriban; en su lugar, la unidad primero intentará escribir en el sector con problemas y, si la operación de escritura es exitosa, el sector se marcará como bueno (en este caso, el "Recuento de eventos de reasignación" (0xC4) no aumentará).

Ahora repasemos los puntos importantes:

... el firmware de la unidad recuerda que el sector debe reasignarse, y lo reasignará la próxima vez que se escriba. [29] Sin embargo, algunas unidades no reasignarán inmediatamente dichos sectores cuando se escriban; en su lugar, la unidad primero intentará escribir en el sector con problemas y, si la operación de escritura es exitosa, el sector se marcará como bueno.

En otras palabras, el sector pendiente debería haberse reasignado de inmediato, o la unidad debería haber intentado escribir en el sector y una de dos cosas debería haber sucedido:

  1. La escritura falló, en cuyo caso el sector pendiente debería haberse reasignado.
  2. La escritura tuvo éxito, en cuyo caso el sector pendiente debería haberse borrado ("marcado como bueno").

Ya indiqué esto antes, pero la descripción de Wikipedia del sector pendiente actual sugiere que el recuento actual del sector pendiente siempre debe ser cero después de una escritura completa en el disco . Como ese no es el caso aquí, podemos concluir que (a) Wikipedia está mal (o al menos es incorrecta para su unidad), o (b) el firmware de la unidad no puede manejar adecuadamente este estado de error (lo que consideraría un error de firmware )

Si un sector inestable se lee posteriormente con éxito, el sector se reasigna y este valor disminuye.

Dado que el recuento de sector pendiente actual sigue sin cambios después de leer la unidad completa, podemos afirmar que (a) el sector no se pudo leer correctamente o (b) el sector se leyó correctamente y se marcó como correcto, pero hubo un error al leer un sector diferente Pero dado que el recuento del sector reasignado sigue siendo 0 después de la lectura, podemos excluir (b) como una posibilidad y podemos concluir que el sector pendiente aún era ilegible.

En este punto, sería útil saber si la unidad ha registrado algún error SMART nuevo. Mi siguiente sugerencia sería verificar si Seagate tiene una actualización de firmware para su unidad, pero parece que no.

Aunque recomendaría no seguir usando esta unidad, parece que podría estar dispuesto a aceptar los riesgos involucrados (es decir, que podría continuar actuando de manera errática y / o podría degradarse o fallar aún más catastróficamente). En ese caso, puede intentar instalar Linux, iniciar desde un CD de rescate y luego (con los sistemas de archivos desmontados) usar e2fsck -l filename para marcar manualmente el bloque apropiado como incorrecto. (¡Solo asegúrese de mantener buenas copias de seguridad!)

e2fsck -l nombrearchivo

Agregue los números de bloque enumerados en el archivo especificado por nombre de archivo a la lista de bloques defectuosos. El formato de este archivo es el mismo que el generado por el programa badblocks (8). Tenga en cuenta que los números de bloque se basan en el tamaño de bloque del sistema de archivos. Por lo tanto, los bloques defectuosos (8) deben tener el tamaño de bloque del sistema de archivos para obtener resultados correctos. Como resultado, es mucho más simple y seguro usar la opción -c para e2fsck, ya que asegurará que los parámetros correctos se pasen al programa badblocks.

(Tenga en cuenta que e2fsck -ces preferible hacerlo e2fsck -l filename, y es posible que incluso desee probarlo, pero en función de sus resultados hasta el momento, dudo mucho que e2fsck -c encuentre bloques defectuosos).

Por supuesto, tendrá que hacer algunos cálculos aritméticos para convertir el LBA del sector defectuoso (como lo proporciona SMART) en un número de bloque del sistema de archivos. El Bad Blocks HowTo proporciona una fórmula práctica:

  b = (int)((L-S)*512/B)
where:
b = File System block number
B = File system block size in bytes
L = LBA of bad sector
S = Starting sector of partition as shown by fdisk -lu
and (int) denotes the integer part.

El HowTo también contiene un ejemplo completo con esta fórmula. Después de instalar el sistema operativo, puede confirmar si un archivo está ocupando el sector escamoso utilizando debugfs (consulte el Cómo para obtener instrucciones detalladas).

Otra opción: particionar alrededor del bloque defectuoso sospechoso Cuando instala su sistema operativo, también puede intentar particionar el error. Si hice bien mi cálculo, el error es de alrededor de 81.589 MB, por lo que puede hacer / arrancar un poco pequeño e iniciar su próxima partición después del sector 167095, u omitir los primeros 82 MB más o menos por completo.

ABRT 235018779 Desafortunadamente, en cuanto al error ABRT en el sector 235018779, solo podemos especular, pero la especificación ATA8-ACS nos da algunas pistas.

Del Borrador de Trabajo AT Adjunto 8 - Conjunto de comandos ATA / ATAPI (ATA8-ACS) :

6.2.1 Error de aborto (ABRT) bit 2. El aborto se establecerá en uno si el comando no es compatible. Abortar puede establecerse en uno si el dispositivo no puede completar la acción solicitada por el comando. Abortar también se establecerá en uno si se solicita una dirección fuera del rango de direcciones accesibles para el usuario si IDNF no se establece en uno.

Mirando los comandos que conducen al ABRT (varios READ SECTOR (S) seguidos de recalibración y reinicialización) ...

Abortar se establecerá en uno si el comando no es compatible. - Esto parece poco probable.

Abortar puede establecerse en uno si el dispositivo no puede completar la acción solicitada por el comando. - Quizás la lista P de sectores reasignados desplaza las direcciones accesibles para el usuario lo suficiente como para que una dirección accesible para el usuario se traduzca al sector 235018779, y la operación de lectura no pudo completarse (por qué razón, no sabemos ... pero no hubo un error de CRC, por lo que no creo que podamos concluir que el sector 235018779 es malo).

Abortar también se establecerá en uno si se solicita una dirección fuera del rango de direcciones accesibles para el usuario si IDNF no se establece en uno. - Para mí esto parece muy probable, y probablemente lo interpretaría como el resultado de un error de software (ya sea su sistema operativo o algún programa que estaba ejecutando). En ese caso, no es una señal de muerte inminente para el disco duro.

En caso de que aún no estés cansado de ejecutar diagnósticos ...

Puede intentar smartctl -t long /dev/sdanuevamente para ver si produce más errores en el registro SMART, o puede dejarlo como un archivo X sin resolver ;) y verificar el registro SMART periódicamente para ver si vuelve a ocurrir. En cualquier caso, si continúa utilizando la unidad sin lograr que reasigne o borre el sector pendiente, ya está asumiendo un riesgo.

Use un sistema de archivos de suma de verificación

Para un poco más de seguridad, puede considerar usar un sistema de archivos de suma de verificación como ZFS o btrfs para ayudar a proteger contra la corrupción de datos de bajo nivel. Y no olvide realizar copias de seguridad frecuentes si tiene algo que no se puede reproducir fácilmente.

robar
fuente
Buena idea, lo intentaré ahora mismo.
Ivan Kovacevic
1
¿Qué hay de intentar esto solo con ese mal sector 167095? :)
semana
Naah eso es muy aburrido: D. Primero intentaré con el sector sospechoso, definitivamente un consejo inteligente, si eso no hace nada, lo dejaré correr en todo el disco por si acaso ...
Ivan Kovacevic
@week eso debería ser suficiente, pero parece que está teniendo problemas para concentrarse en el sector defectuoso, por eso sugerí hacer todo el viaje.
robar el
1
Si todavía hay un sector pendiente después de escribir en toda la unidad, la reasignación del sector defectuoso no funciona correctamente y debe reemplazar la unidad (o, si es un jugador de apuestas, continúe usándola sabiendo que puede comportarse de manera errática) .
robar el
5

El artículo Reasignación de sectores defectuosos proporciona el algoritmo utilizado.

Hay dos listas de defectos en el disco duro:

  • La lista P son defectos encontrados durante la fabricación y también se conocen como defectos primarios. Siguen secuencialmente los sectores normales. Un sector defectuoso apuntará a su reemplazo utilizando un número de cambio (primero es +1, luego +2, etc.).
  • G-List son defectos que se desarrollan en el uso normal de la unidad y se conocen como defectos crecidos. No hay restricciones en su asignación y no necesitan seguir secuencialmente los defectos de la lista P. Un sector defectuoso señalará su reemplazo utilizando un número de sector simple.

Por lo tanto, el hecho de que su sector defectuoso sea 577121 sectores más allá del último sector normal no significa que tenga 577121 sectores defectuosos, a menos que sea un defecto de la lista P. Se puede colocar un defecto de la lista G en cualquier lugar, por lo que es muy posible que el firmware lo haya asignado al final del espacio libre del sector.

De los atributos de Wikipedia ATA SMART conocidos :

Cuentan los sectores reasignados

Conteo de sectores reasignados. Cuando el disco duro encuentra un error de lectura / escritura / verificación, marca ese sector como "reasignado" y transfiere datos a un área reservada especial (área de reserva). Este proceso también se conoce como reasignación, y los sectores reasignados se denominan "reasignaciones". El valor bruto normalmente representa un recuento de los sectores defectuosos que se han encontrado y reasignado.

Recuento actual del sector pendiente

Recuento de sectores "inestables" (esperando ser reasignados, debido a errores de lectura irrecuperables). Si un sector inestable se lee posteriormente con éxito, el sector se reasigna y este valor disminuye. Los errores de lectura en un sector no reasignarán el sector inmediatamente (ya que no se puede leer el valor correcto y, por lo tanto, no se conoce el valor para reasignar, y también podría volverse legible más adelante); en cambio, el firmware de la unidad recuerda que el sector necesita ser reasignado, y lo reasignará la próxima vez que se escriba.

De hecho, los errores pendientes son mucho peores que la reasignación, ya que el error es lo suficientemente difícil como para evitar leer el contenido original para reasignar. En efecto, los contenidos de ese sector probablemente se pierdan para siempre.

El documento MHDD Herramienta de diagnóstico de disco duro de muy bajo nivel explica los códigos de error como:

UNC : data is uncorrectable
ABRT : command was aborted

Por lo tanto, el sector 167095 no se puede corregir y se anuló la lectura / escritura al 235018779.

Como escribir a ambos sectores no cambió el estado de pendiente a reasignado, me parece que el sector de reemplazo también es malo. Mi teoría es que el sector 167095 se reasignó al sector 235018779, pero que desafortunadamente este último también es malo, y que el firmware no sabe cómo reasignar los sectores de repuesto defectuosos. El resultado es un sector defectuoso que no se puede corregir.

harrymc
fuente
Buen artículo, ¡aprendí algo nuevo definitivamente! Sin embargo, esto aún no explica por qué el sector defectuoso informado en los registros SMART incluso se informa en el área del sector libre y no en el espacio utilizable normal y por qué el contador del sector pendiente todavía es 1 y el contador del sector reasignado 0. Si todo funcionó como debería Estos dos contadores deberían haber invertido sus valores.
Ivan Kovacevic
1
Vea mi edición arriba.
harrymc
¡Gracias! Gran información! Ahora tengo una pregunta: dado que 167095 no se reasignó, ¿es aconsejable usar este HDD? ¿El HDD simplemente marcó ese sector como malo y evitará usarlo en el futuro? Básicamente tengo que decidir: ¿puedo proceder e instalar Linux, o debería tirar este disco duro comprar uno nuevo e instalar Linux, o puedo hacer algo (ejecutar un comando) para marcar ese sector como malo manualmente e instalar Linux (mi opción favorita)
Ivan Kovacevic
1
Un disco grande con solo dos sectores defectuosos no merece ser desechado. A medida que los bloques defectuosos tuvieron éxito, con suerte marcó ese sector como malo. Intentaría instalar Linux en él, pero haré un formato completo si su distribución puede hacerlo durante la instalación. Pero si esto es para un sistema de producción importante, cambiaría el disco, por si acaso.
harrymc