¿Por qué diferentes fabricantes tienen un valor SMART diferente?

23

En primer lugar, creo que todos saben que los discos duros fallan mucho más de lo que a los fabricantes les gustaría admitir . Google realizó un estudio que indica que ciertos atributos de datos sin procesar que el estado SMART de los informes de los discos duros pueden tener una fuerte correlación con la falla futura de la unidad.

Encontramos, por ejemplo, que después de su primer error de escaneo, las unidades tienen 39 veces más probabilidades de fallar dentro de los 60 días que las unidades sin tales errores. Los primeros errores en reasignaciones, reasignaciones fuera de línea y recuentos de prueba también están fuertemente correlacionados con mayores probabilidades de falla. A pesar de esas fuertes correlaciones, encontramos que los modelos de predicción de fallas basados ​​solo en parámetros SMART probablemente estén severamente limitados en su precisión de predicción, dado que una gran fracción de nuestras unidades fallidas no han mostrado señales de error SMART.

Parece que Seagate está tratando de ocultar esta información sobre sus unidades al afirmar que solo su software puede determinar con precisión el estado exacto de su unidad y, por cierto, su software no le dirá los valores de datos sin procesar para los atributos SMART. Western Digital no ha hecho tal reclamo a mi conocimiento, pero su herramienta de informe de estado tampoco parece informar valores de datos sin procesar.

He estado usando HDtune y smartctl de smartmontools para recopilar los valores de datos sin procesar para cada atributo. De hecho, he descubierto que ... Estoy comparando manzanas con naranjas cuando se trata de ciertos atributos. Por ejemplo, descubrí que la mayoría de las unidades Seagate informarán que tienen muchos millones de errores de lectura, mientras que el 99% de las veces el digital occidental muestra 0 para errores de lectura. También descubrí que Seagate informará muchos millones de errores de búsqueda, mientras que Western Digital siempre parece informar 0.

P : ¿Cómo normalizo estos datos? ¿Seagate produce millones de errores mientras que Western digital no produce ninguno? El artículo de Wikipedia sobre el estado SMART dice que los fabricantes tienen diferentes formas de informar estos datos.

Aquí está mi hipótesis:

Creo que encontré una manera de normalizar (¿es ese el término correcto?) Los datos.

Las unidades Seagate tienen un atributo adicional que las unidades Western Digital no tienen (Hardware ECC recuperado). Cuando resta el recuento de errores de lectura del recuento recuperado de ECC, probablemente terminará con 0. Esto parece ser equivalente al recuento de "errores de lectura" informados por Western Digitals. Esto significa que Western Digital solo informa errores de lectura que no puede corregir, mientras que Seagate cuenta todos los errores de lectura y le dice cuántos de ellos pudo corregir.

Tenía una unidad Seagate donde el recuento de errores de lectura era inferior al recuento recuperado de ECC y noté que muchos de mis archivos se estaban corrompiendo. Así es como se me ocurrió mi hipótesis. Los millones de errores de búsqueda que produce Seagate siguen siendo un misterio para mí.

Confirme o corrija mi hipótesis si tiene información adicional.

Aquí está el estado inteligente de mi unidad digital occidental para que pueda ver de lo que estoy hablando:

james@ubuntu:~$ sudo smartctl -a /dev/sda
smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD1001FALS-00E3A0
Serial Number:    WD-WCATR0258512
Firmware Version: 05.01D05
User Capacity:    1,000,204,886,016 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Thu Jun 10 19:52:28 2010 PDT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   179   175   021    Pre-fail  Always       -       4033
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       270
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1468
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       262
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       46
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       223
194 Temperature_Celsius     0x0022   105   102   000    Old_age   Always       -       42
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

Editar: Aquí está el disco Seagate del que estaba hablando que estaba causando corrupción de datos. Estos datos son de HDTune.

HD Tune: ST3250623A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         45       38       6        77882492   Ok       
(03) Spin Up Time                99       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       640        Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             85       60       30       359872048  Ok       
(09) Power On Hours Count        94       94       0        6028       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           100      100      20       689        Ok       
(C2) Temperature                 25       55       0        25         Ok       
(C3) Hardware ECC Recovered      50       47       0        201555081  Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      199      0        1          Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6028
Health Status         : Ok

El hecho de que el hardware ECC recuperado es mayor que la tasa de error de lectura sin procesar es contra intuitivo en mi opinión.

Esto es lo que he encontrado como una unidad Seagate "normal" donde el ECC recuperado coincide con la tasa de error de lectura sin procesar:

HD Tune: ST380011A Health

ID                               Current  Worst    ThresholdData       Status   
(01) Raw Read Error Rate         62       46       6        79986164   Ok       
(03) Spin Up Time                98       98       0        0          Ok       
(04) Start/Stop Count            100      100      20       6          Ok       
(05) Reallocated Sector Count    100      100      36       0          Ok       
(07) Seek Error Rate             83       60       30       210309663  Ok       
(09) Power On Hours Count        93       93       0        6516       Ok       
(0A) Spin Retry Count            100      100      97       0          Ok       
(0C) Power Cycle Count           99       99       20       1325       Ok       
(C2) Temperature                 25       52       0        25         Ok       
(C3) Hardware ECC Recovered      62       46       0        79986164   Ok       
(C5) Current Pending Sector      100      100      0        0          Ok       
(C6) Offline Uncorrectable       100      100      0        0          Ok       
(C7) Ultra DMA CRC Error Count   200      188      0        18         Ok       
(C8) Write Error Rate            100      253      0        0          Ok       
(CA) TA Counter Increased        100      253      0        0          Ok       

Power On Time         : 6516
Health Status         : Ok

EDITAR:

Quiero aclarar que sé que Google generalmente considera que SMART es inútil. Sé que todos deberían hacer una copia de seguridad de sus datos. Sin embargo, estoy en el negocio de arreglar las computadoras de otras personas. La mayoría de las personas no tienen copias de seguridad o RAID. No es rentable para las empresas solucionar problemas de los discos duros, por lo que simplemente los ejecutan en un RAID hasta que mueren. Me resulta útil en mi línea de trabajo verificar el estado INTELIGENTE del disco duro. Tarda como 30 segundos. Si tengo la suerte de que una unidad de disco defectuosa muestre un indicio de falla, como errores de escaneo o sectores reasignados, sé cómo sacar la unidad de allí. Si no existe tal sugerencia, probablemente pasaré muchas horas resolviendo problemas de lentitud y corrupción de datos hasta que finalmente encuentre que el disco duro está dañado.

Solo estoy tratando de afinar este proceso.

James T
fuente
Hay información inteligente en el menú de administración bajo (creo) administración de discos. Puede tener habilidades adicionales sobre smartctl, pero no lo he usado en mucho tiempo y no lo tengo frente a mí.
Jarvin
@ Dan Hola Dan, no estoy seguro de qué herramienta de Windows estás hablando. ¿Puedes aclarar?
James T
El problema con SMART es que es un nombre poco apropiado; no hay inteligencia real en él, solo unas pocas ecuaciones (probablemente ni siquiera heurísticas). Todo lo que puede hacer es monitorearse a sí mismo e informar los números, eso es todo. Por ejemplo, tengo una unidad que tenía un cable de alimentación mal conectado, lo que provocó que se encendiera y apagara muy rápidamente varias veces (haciendo un sonido de "clic de muerte"). Volví a colocar el conector, por lo que ahora funciona sin problemas, pero debido a la falla temporal (reparable) que una vez, ahora ha grabado permanentemente un evento RRER en el SMART, haciendo que parezca que está fallando.
Synetech 01 de

Respuestas:

14

Parece que diferentes fabricantes usan valores SMART para cosas a veces radicalmente diferentes, como puede ver aquí :

Mi (s) disco (s) duro (s) en ReadyNAS informan una alta tasa de errores de lectura sin procesar SMART, tasa de errores de búsqueda y recuperación de ECC de hardware. ¿Qué tengo que hacer?

Seagate utiliza estos campos SMART para recuentos internos, por lo que este es un problema conocido con los discos Seagate. Busque recuentos anormales en otros campos, especialmente Ct de sector reasignado y Recuento de errores ATA.

Entonces, cuando se trata de tu pregunta real ...

Si tengo la suerte de que una unidad de disco defectuosa muestre un indicio de falla, como errores de escaneo o sectores reasignados, sé cómo sacar la unidad de allí. Si no existe tal sugerencia, probablemente pasaré muchas horas resolviendo problemas de lentitud y corrupción de datos hasta que finalmente encuentre que el disco duro está dañado.

Yo diría que una buena regla general es que solo puede esperar que las configuraciones SMART sean comparables dentro del mismo fabricante de unidades, ¡y tal vez incluso el mismo modelo de unidad!

Entonces, cuando esté buscando diagnosticar esos recuentos SMART, tenga esto en cuenta ... el "recuento de reintentos de error de lectura" de un fabricante puede significar algo totalmente diferente al de otro fabricante. Triste pero cierto. :(

Jeff Atwood
fuente
14

Bien, antes que nada no estoy de acuerdo con tu premisa.

Google realizó un estudio que indica que ciertos atributos de datos sin procesar que el estado SMART de los informes de los discos duros pueden tener una fuerte correlación con la falla futura de la unidad.

De hecho, encontraron lo contrario:

... descubrimos que es probable que los modelos de predicción de fallas basados ​​solo en parámetros SMART estén severamente limitados en su precisión de predicción, dado que una gran fracción de nuestras unidades fallidas no han mostrado señales de error SMART.

En segundo lugar, los umbrales SMART no están estandarizados. El firmware en la unidad en sí marcará un atributo como "pre-falla", pero los valores en bruto no tienen sentido para el usuario. Por ejemplo, Seagate dice :

Varios atributos están siendo monitoreados y medidos contra ciertos límites de umbral. Si alguno de los atributos supera un umbral, una prueba general de estado SMART cambiará de Pasar a Fallar.

Los valores SMART que pueden ser leídos por el software SMART de terceros no se basan en cómo se pueden usar los valores dentro de los discos duros de Seagate. Seagate no proporciona soporte para programas de software que afirman leer atributos y umbrales SMART individuales. Puede haber cierta corrección histórica en las unidades más antiguas, pero las nuevas unidades, sin duda, habrán incorporado nuevas soluciones, atributos y umbrales.

tl; dr Resumen:

Los valores SMART sin procesar casi no tienen sentido, ya que los diferentes fabricantes los usan de diferentes maneras y tienen diferentes umbrales, etc. muy fiable.

¡Haz copias de seguridad con regularidad!

sml
fuente
Según tus comentarios, no parece que hayas leído mi publicación completa. Es por eso que pongo toda la información de fondo y citas. Usted citó a Google pero solo una parte muy selecta. Si lee la parte justo antes de su cotización ... dice que algunos atributos tienen una fuerte correlación de fallas ... como los recuentos de sectores reasignados. Los fabricantes no informan que sus unidades están en un estado previo a la falla después de un sector reasignado. Esto indica claramente que puede obtener una mejor indicación del estado de la unidad mirando los datos sin procesar.
James T
También me gustaría agregar que mi unidad Seagate estaba corrompiendo mis datos y los valores de los datos sin procesar eran notablemente diferentes de lo que aprendí a ser unidades saludables. Claramente, algo está mal con el fabricante establece el umbral.
James T
Creo que debes volver a leer mi publicación y mi enlace. Los valores SMART sin procesar no son indicadores confiables de nada . El informe de Google no dice que "algunos atributos tienen una fuerte correlación de fallas". Lo que sí dice es que a pesar del hecho de que "después de su primer error de escaneo, las unidades tienen 39 veces más probabilidades de fallar dentro de los 60 días que las unidades sin tales errores", menos del 15% de la población de unidades fallidas tuvo algún error de escaneo. ¿Es un indicador confiable si es correcto el 15% del tiempo?
sml
1
@scottl No estoy seguro de dónde obtuviste tu 15%. No vi eso en el artículo. Incluso si solo el 15% de sus unidades tuvieran errores de escaneo ... descubrieron que una unidad con errores de escaneo tiene 39 veces más probabilidades de fallar en 60 días. Esto no significa que su unidad no fallará a menos que tenga errores de escaneo. Esto solo significa que si tiene un error de escaneo ... la vida restante de sus discos duros es probablemente corta. ¿Alguna vez has tomado estadísticas? Lo encontré muy útil.
James T
1
Las preguntas frecuentes de smartmontools dicen: Los atributos SMART sin procesar (temperatura, duración de encendido, etc.) se almacenan en estructuras específicas del proveedor. En algún momento estos son extraños. Los discos Hitachi (al menos algunos de ellos) almacenan la vida útil de encendido en minutos, en lugar de horas (consulte la siguiente pregunta a continuación). Los discos de IBM (al menos algunos de ellos) tienen tres temperaturas almacenadas en la estructura en bruto, no solo una. Y así.
sml
4

No estoy exactamente seguro de cuál es la pregunta que estás haciendo. Parece que tienes toda la pregunta y la respuesta en una, pero ...

¿Ha comparado las métricas del disco duro con las de SeaTools?

Es la herramienta de diagnóstico de hardware estándar de Seagate y AFAIK, la herramienta de diagnóstico de HDD más utilizada.

No se sorprenda si descubre que las herramientas informan resultados desfavorables sobre sus competidores. Las herramientas generalmente funcionan con discos duros de todos los fabricantes, pero eso no significa que hayan hecho que sus competidores se vean bien mientras lo hacen.

¿Nunca has escuchado la broma, "99.99% de todas las estadísticas son verdaderas, excepto, por supuesto, esta estadística".

Evan Plaice
fuente
1
Sí ... es un poco confuso. Básicamente pongo toda la información de fondo con la que estoy familiarizado antes de la pregunta y todas mis pruebas y conjeturas después de la pregunta. Aquí está mi pregunta "¿Cómo normalizo estos datos?". Básicamente ... ¿cómo hago para que todos los atributos de datos de un fabricante signifiquen lo mismo que los atributos de datos de otro fabricante para poder compararlos con precisión?
James T
@ James Puede intentar recopilar datos de tantas diferencias como sea posible y descubrir cómo cada uno de ellos interpreta los datos de manera diferente el uno del otro. Es posible que todos estén informando datos correctos, simplemente pueden estar interpretándolos de una manera diferente como usted señaló. Es por eso que agregué la cita de estadísticas ... Solo porque los datos son buenos, no significa que las interpretaciones lo sean.
Evan Plaice
2
Sí, eso es lo que he hecho. He revisado más de 70 discos duros diferentes y la gran diferencia en los errores de búsqueda y de lectura son los atributos que me han llamado la atención. Supongo que para las unidades Seagate, los errores de lectura tienen algún tipo de relación con el hardware recuperado. No estoy exactamente seguro de cuál es esa relación. Esperaba que alguien aquí pudiera decirme. También esperaba que alguien pudiera decirme por qué las unidades Seagate tienen un gran recuento de errores de búsqueda, mientras que Western Digital siempre parece tener cero.
James T
@ James Tal vez alguien venga con una mejor respuesta ... Creo que Western Digital probablemente no sigue las especificaciones SMART exactas. Ese es el problema con los estándares de hardware, son excelentes puntos de venta, pero siempre hay algunos fabricantes que comercializarán todos los beneficios sin seguir las especificaciones completas.
Evan Plaice
Sí, la desviación del estándar es lo que pensé y lo que sugiere el artículo de Wikipedia. Me gustaría saber cómo difieren para poder comparar adecuadamente los dos fabricantes (y posiblemente otros). Gracias por los comentarios Evan. Esperemos que esto también aclare la pregunta a los demás.
James T
2

En la realidad física de los componentes internos del disco duro, todas las marcas de discos duros de más de 100 MB tendrán muchos errores de lectura física. La mayoría de ellos son corregidos de manera segura por ECC, algunos (con suerte muy pocos) son corregidos erróneamente por ECC y el resto (pocas pero más que las correcciones incorrectas) se informan a la computadora como lectura fallida y también deberían hacer que el disco reubique automáticamente mal sector.

Además de corregir errores de lectura sin procesar, ECC también corrige las lecturas que el hardware pensó que estaban bien, pero los bits devueltos estaban ligeramente equivocados. Por lo tanto, ECC corregido podría ser "error de lectura sin formato pero corregido por ECC + la lectura sin formato tuvo éxito pero fue incorrecto y fue corregido por ECC".

Así, dos interpretaciones de los datos parecen posibles:

R. Las unidades que no son de Seagate no incluyen los errores de lectura corregidos por ECC en el "recuento de errores de lectura sin procesar", solo los errores no corregibles.

B. Seagate considera que es un error de lectura si ECC encuentra algo incorrecto con los datos, incluso si el circuito de bajo nivel no se dio cuenta, otros no.

La normalización será muy diferente dependiendo de qué teoría (A o B) sea correcta.

Jakob Bohm
fuente
> también debe hacer que la unidad reubique automáticamente el sector defectuoso. Entonces, ¿cuál es la relación entre los campos Recuento de eventos no corregibles Reubicado de eventos y Recuento de sector pendiente actual ? ¿No aumentaría la corriente , luego se reubicaría o no se podría corregir ? ¿Por qué sería incorregible? Si intentó reasignar un sector defectuoso y falló (es decir, el sector de repuesto es malo), ¿no debería intentar reasignar a un sector de repuesto diferente? No es un neumático que solo tiene uno de repuesto.
Synetech
100 MB? ¿Te refieres a 100 GB?
Peter Mortensen