Recibí tal mensaje en /var/log/messages
:
Jun 25 06:29:27 server.ru smartd[4477]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 46 to 47
#smartctl -a /dev/sda
:
smartctl version 5.38 [i686-redhat-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 110 088 006 Pre-fail Always - 28526210
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 24
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 471723621
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2520
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 41
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 068 052 045 Old_age Always - 32 (Lifetime Min/Max 31/35)
194 Temperature_Celsius 0x0022 032 048 000 Old_age Always - 32 (0 27 0 0)
195 Hardware_ECC_Recovered 0x001a 047 045 000 Old_age Always - 105036390
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0
¿Significa que el disco está fallando y tengo que reemplazarlo? ¿Dónde puedo leer sobre la interpretación de los resultados de la prueba SMART?
Un valor alto para este atributo es bastante bueno:
https://kb.acronis.com/content/9131
fuente
Primero, los valores más bajos son peores para SMART, no valores más altos (observe cómo la columna de umbral siempre es más baja que el valor actual). Por lo tanto, un aumento de valor no es motivo de preocupación. (Sin embargo, esta regla no se aplica a los valores brutos).
Los valores SMART tienden a oscilar un poco (el suyo puede estar en el límite entre 46 y 47, por ejemplo, por lo que incluso pequeños cambios podrían hacer que cambie al otro valor).
Su
smartctl -a
salida muestra que lo peor que ha sido este valor es 45, por lo que oscila ligeramente por encima de lo normal.Para obtener más información, consulte Wikipedia: atributos ATA SMART .
fuente
Tenga en cuenta que incluso el extenso estudio que realizó Google descubrió que una gran cantidad de fallas en la unidad no fueron predichas por errores SMART. Es posible que lo que vea sea perfectamente normal, pero como cada fabricante tiene diferentes métricas para convertir los valores sin procesar en los valores informados, es difícil decir con certeza si su unidad está experimentando muchos errores o no. Sin embargo, un número bruto tan grande me parece extraño.
Recomendaría leer toda la unidad (dd o rsync'ing a una nueva unidad) y verificar los valores SMART a medida que avanza. Si ve ese número sin formato, o los valores informados, cambie mucho, comenzaría a buscar reemplazar la unidad.
fuente
No tiene nada de malo.
Siempre puedes correr
Luego, después de unas horas, consulte su resultado
sólo para estar seguro.
fuente
IIRC Hardware ECC recuperado es la corrección de errores en las lecturas de disco, que no es inusual para un disco, y codifican los datos con mecanismos de corrección de errores precisamente por este motivo. Algunos controladores también admiten información redundante en sectores de disco y agregan otra capa de corrección de errores.
Como dice Dave Cheney, las cifras deben controlarse a lo largo del tiempo. Los cambios radicales en estas estadísticas son una indicación de un disco defectuoso. Además, tenga en cuenta las listas de defectos crecidos: si la lista de defectos crecidos comienza a crecer o las estadísticas SMART comienzan a cambiar significativamente, entonces debe reemplazar la unidad de forma profiláctica.
fuente