¿Cómo determinar el número de ciclos de escritura o la vida esperada para SSD en Linux?
10
Hemos estado ejecutando un SSD (Intel X25-M) en un servidor Linux (RHEL 5) durante un tiempo, pero nunca hicimos ningún esfuerzo para determinar la carga de escritura durante el año pasado. ¿Hay alguna herramienta en Linux que nos diga aproximadamente cuánto se ha escrito en el disco a lo largo del tiempo o (aún mejor) cuánto desgaste se ha acumulado? Solo buscando una pista para ver si está cerca de la muerte o no ...
El valor sin procesar Host_Writes_32MIB muestra cuántas unidades de datos de 32MiB se han escrito en esta unidad.
El valor Media_Wearout_Indicator le muestra un porcentaje normalizado de qué tan útil es la vida útil de la unidad. Esto comienza en 100 (o 099, no recuerdo cuál), y continúa hasta 001, momento en el que Intel considera que la unidad ha excedido su vida útil. Intel también utiliza el MWI como parte de las reclamaciones de garantía: una vez que el MWI alcanza 001, la garantía caduca.
¡Sin embargo, el MWI que alcanza 001 no significa que la unidad fallará de inmediato! Intel tendrá tolerancia incorporada para lidiar con las variaciones en las unidades flash. He visto las unidades durar mucho más allá de este punto, y estoy probando activamente el desgaste de algunos SSD de la serie Intel 320 para ver cuánto duran.
Sin embargo, como la garantía caduca cuando el MWI llega a 001, reemplazaría cualquier unidad en ese momento.
Para referencia futura, Media_Wearout_Indicatorcomienza en 100 para mi SSD Intel 520 Series.
pableu
Vale la pena señalar que incluso si la unidad no "falla" una vez que llega a 001, en algún momento posterior (tal vez mucho después), la capacidad de algunas unidades para retener datos cuando se pierde la energía se reduce a cantidades de tiempo alarmantemente cortas . Creo que se han publicado algunas pruebas de resistencia en línea que han medido esto.
sa289
6
Las unidades Corsair también exportan un indicador de porcentaje de vida útil similar. En su caso, es el atributo 231:
(Tenga en cuenta que si smartctl muestra esto como una temperatura, debe actualizar la base de datos de su dispositivo. En mi sistema Debian eso significa ejecutar /usr/sbin/update-smart-drivedb)
Una publicación de blog de Corsair parece mostrar que el valor nunca cae por debajo del 10%, por lo que supongo que debe reemplazarse al 10%.
También tengo una unidad OCZ con el mismo controlador Sandforce que también exporta el mismo valor SSD_Life_Left.
Es útil mencionar que en este caso se debe usar el valor normalizado.
Falcon Momot
1
Realmente no. Si la unidad no mantiene estadísticas, no lo sabría con seguridad. Incluso entonces, la unidad abstraería los algoritmos de nivelación de escritura y demás para tratar de optimizar las cosas debajo del capó, lejos de las llamadas e interfaces del sistema. En otras palabras, la unidad podría mentirle fácilmente sobre dónde se escriben realmente los datos en los "medios" para que no sepa qué células están obteniendo actividad.
Eso todavía no garantiza cuándo / si verá fallas o errores. La unidad podría fallar mañana, podría fallar en tres años.
La mejor opción es mantenerlo en una configuración RAID y tener un plan para reemplazarlo cuando falla (antes de que falle la otra unidad) y asegurarse de que sus copias de seguridad estén actualizadas.
Media_Wearout_Indicator
comienza en 100 para mi SSD Intel 520 Series.Las unidades Corsair también exportan un indicador de porcentaje de vida útil similar. En su caso, es el atributo 231:
(Tenga en cuenta que si smartctl muestra esto como una temperatura, debe actualizar la base de datos de su dispositivo. En mi sistema Debian eso significa ejecutar
/usr/sbin/update-smart-drivedb
)Una publicación de blog de Corsair parece mostrar que el valor nunca cae por debajo del 10%, por lo que supongo que debe reemplazarse al 10%.
También tengo una unidad OCZ con el mismo controlador Sandforce que también exporta el mismo valor SSD_Life_Left.
fuente
Media_Wearout_Indicator es lo que estás buscando. Por 100 significa que su SSD tiene 100% de vida, el número más bajo significa que queda menos vida.
Salida de mi laptop
Si desea ver más detalles y atributos completos de su unidad, puede ejecutar
y la salida
http://namhuy.net/1024/how-to-check-ssd-life-left.html
fuente
Realmente no. Si la unidad no mantiene estadísticas, no lo sabría con seguridad. Incluso entonces, la unidad abstraería los algoritmos de nivelación de escritura y demás para tratar de optimizar las cosas debajo del capó, lejos de las llamadas e interfaces del sistema. En otras palabras, la unidad podría mentirle fácilmente sobre dónde se escriben realmente los datos en los "medios" para que no sepa qué células están obteniendo actividad.
Eso todavía no garantiza cuándo / si verá fallas o errores. La unidad podría fallar mañana, podría fallar en tres años.
La mejor opción es mantenerlo en una configuración RAID y tener un plan para reemplazarlo cuando falla (antes de que falle la otra unidad) y asegurarse de que sus copias de seguridad estén actualizadas.
fuente