¿Debería preocuparme un valor SMART Hardware_ECC_Recovered alto?

16

Recibí tal mensaje en /var/log/messages:


Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47

#smartctl -a /dev/sda:


smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   088   006    Pre-fail  Always       -       28526210
  3 Spin_Up_Time            0x0003   093   093   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       24
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       471723621
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       2520
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       41
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   068   052   045    Old_age   Always       -       32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius     0x0022   032   048   000    Old_age   Always       -       32 (0 27 0 0)
195 Hardware_ECC_Recovered  0x001a   047   045   000    Old_age   Always       -       105036390
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

¿Significa que el disco está fallando y tengo que reemplazarlo? ¿Dónde puedo leer sobre la interpretación de los resultados de la prueba SMART?

lexsys
fuente

Respuestas:

13

Según Steve Gibson, de la fama Spinrite , los valores SMART deben tomarse con el tiempo, no como lecturas instantáneas. Eso significa que un valor de 47 no es necesariamente malo si el valor ha sido 47 durante meses. Sin embargo, si el valor era 42 hace una hora y está subiendo rápidamente, eso significa que la unidad está experimentando dificultades para acceder a parte de los datos y es posible que pronto no pueda leer el sector. Dependiendo del valor de los datos en esa unidad, es posible que desee reemplazarlos.

Dave Cheney
fuente
+1 para una gran respuesta y para agregarle. Si realmente le preocupa Lexsys, compraría una copia de spinrite y la ejecutaría. Necesitará su sistema para poder arrancar desde un CD, pero el sistema operativo no es relevante. (Aunque para crear el CD de arranque, necesitará Windows o un clon de Windows)
Matt
Spinrite viene con un arranque (freedos) .iso imagen que se puede grabar con cualquier sistema operativo actual
a Dave Cheney
grc.com/sr/spinrite.htm sería un mejor lugar para vincularse
Brad Gilbert
2
¡El ejemplo está mal! Vea la respuesta de @ CesarB: para la mayoría de los valores, ¡aumentar es bueno! Entonces, si era 42 hace una hora, y ahora son 47, genial. Pero no al revés.
Volker Siegel
6

Un valor alto para este atributo es bastante bueno:

El parámetro SMART recuperado por ECC de hardware indica el tiempo entre errores corregidos por ECC.

https://kb.acronis.com/content/9131

Robert Klemme
fuente
2
Agregué lo que creo que es la cita central.
Robert Klemme
Esto tiene sentido ahora incluso si el recurso vinculado desaparece. Gracias Robert
pollitos
4

Primero, los valores más bajos son peores para SMART, no valores más altos (observe cómo la columna de umbral siempre es más baja que el valor actual). Por lo tanto, un aumento de valor no es motivo de preocupación. (Sin embargo, esta regla no se aplica a los valores brutos).

Los valores SMART tienden a oscilar un poco (el suyo puede estar en el límite entre 46 y 47, por ejemplo, por lo que incluso pequeños cambios podrían hacer que cambie al otro valor).

Su smartctl -asalida muestra que lo peor que ha sido este valor es 45, por lo que oscila ligeramente por encima de lo normal.

Para obtener más información, consulte Wikipedia: atributos ATA SMART .

CesarB
fuente
3

Tenga en cuenta que incluso el extenso estudio que realizó Google descubrió que una gran cantidad de fallas en la unidad no fueron predichas por errores SMART. Es posible que lo que vea sea perfectamente normal, pero como cada fabricante tiene diferentes métricas para convertir los valores sin procesar en los valores informados, es difícil decir con certeza si su unidad está experimentando muchos errores o no. Sin embargo, un número bruto tan grande me parece extraño.

Recomendaría leer toda la unidad (dd o rsync'ing a una nueva unidad) y verificar los valores SMART a medida que avanza. Si ve ese número sin formato, o los valores informados, cambie mucho, comenzaría a buscar reemplazar la unidad.

jasonrm
fuente
Huh Sería genial que ZFS rastreara los atributos SMART contra sus propios patrones de uso.
i336_
1

No tiene nada de malo.

Siempre puedes correr

smartctl -t long /dev/yourdrive

Luego, después de unas horas, consulte su resultado

smartctl -a /dev/yourdrive

sólo para estar seguro.

cstamas
fuente
1

IIRC Hardware ECC recuperado es la corrección de errores en las lecturas de disco, que no es inusual para un disco, y codifican los datos con mecanismos de corrección de errores precisamente por este motivo. Algunos controladores también admiten información redundante en sectores de disco y agregan otra capa de corrección de errores.

Como dice Dave Cheney, las cifras deben controlarse a lo largo del tiempo. Los cambios radicales en estas estadísticas son una indicación de un disco defectuoso. Además, tenga en cuenta las listas de defectos crecidos: si la lista de defectos crecidos comienza a crecer o las estadísticas SMART comienzan a cambiar significativamente, entonces debe reemplazar la unidad de forma profiláctica.

Preocupado por TunbridgeWells
fuente
1
jajaja, profilácticamente
Dave Cheney