Tiempo medio entre fallas - SSD

32

El tiempo medio entre fallas , o MTBF, para este SSD se enumera como 1,500,000horas.

Eso es muchas horas. 1,500,000las horas son aproximadamente 170años. Dado que la invención de este SSD en particular es posterior a la Guerra Civil, ¿cómo saben qué es el MTBF?

Un par de opciones que tienen sentido para mí:

  • Newegg solo tiene un error tipográfico
  • La definición de tiempo medio entre fallas no es lo que creo que es
  • Están utilizando algún tipo de extrapolación estadística para estimar cuál sería el MTBF

Pregunta:

¿Cómo se obtiene el tiempo medio entre fallas (MTFB) para SSD / HDD?

OSE
fuente
Relacionado: serverfault.com/q/257693/126632
Michael Hampton

Respuestas:

34

Los fabricantes de unidades especifican la confiabilidad de sus productos en términos de dos métricas relacionadas: la tasa de falla anualizada (AFR), que es el porcentaje de unidades de disco en una población que falla en una prueba escalada a una estimación anual; y el tiempo medio de falla (MTTF).

El AFR de un nuevo producto generalmente se estima en base a pruebas aceleradas de vida y estrés o en base a datos de campo de productos anteriores. El MTTF se estima como el número de horas de encendido por año dividido por el AFR. Una suposición común para las unidades en servidores es que están encendidas el 100% del tiempo.

http://www.cs.cmu.edu/~bianca/fast/

MTTF de 1,5 millones de horas suena algo plausible.

Eso sería más o menos una prueba con 1000 unidades funcionando durante 6 meses y fallando 3 unidades.
El AFR sería (2 * 6 meses * 3) / (1000 unidades) = 0.6% anual y el MTTF = 1 año / 0.6% = 1,460,967 horas o 167 años.

Una forma diferente de ver ese número es cuando tiene 167 unidades y las deja en funcionamiento durante un año, el fabricante afirma que, en promedio , verá que falla una unidad.

Pero espero que sea simplemente la constante tasa de falla mecánica / electrónica "aleatoria".

Suponiendo que las tasas de falla siguen la curva de la bañera , como se menciona en los comentarios, el equipo de mercadotecnia del fabricante puede masajear un poco los números de confiabilidad, por ejemplo, al no incluir DOA'S (muerto al llegar, unidades que pasaron el control de calidad pero fallan cuando el usuario final los instala) y estirando la definición DOA para excluir también a aquellos en el pico de falla temprana. Y como las pruebas no se realizan el tiempo suficiente, tampoco verá los efectos de la edad.

¡Creo que el período de garantía es una mejor indicación de cuánto tiempo realmente espera un fabricante que un SSD dure!
Eso definitivamente no se medirá en décadas o siglos ...


Asociado con el MTBF está la confiabilidad asociada con el número finito de ciclos de escritura que las células NAND pueden soportar. Una métrica común es la capacidad de escritura total, generalmente en TB. Además de otros requisitos de rendimiento que es un gran limitador.

Para permitir una comparación más conveniente entre diferentes marcas y unidades de diferentes tamaños, la resistencia de escritura a menudo se convierte en capacidad de escritura diaria como una fracción de la capacidad del disco.

Suponiendo que una unidad está clasificada para vivir mientras esté en garantía:
una SSD de 100 GB puede tener una garantía de 3 años y una capacidad de escritura de 50 TB:

        50 TB
---------------------  = 0.46 drive per day write capacity.
3 * 365 days * 100 GB

Cuanto mayor sea ese número, más adecuado será el disco para escribir IO intensivo.
En este momento (finales de 2014), los SSD de la línea de servidores de valor tienen un valor de 0.3-0.8 unidad / día, el rango medio aumenta constantemente de 1-5 y la gama alta parece dispararse con niveles de resistencia de escritura de hasta 25 * la capacidad de conducción por día durante 3-5 años.

Algunas pruebas del mundo real muestran que a veces las afirmaciones de los proveedores se pueden exceder masivamente, pero conducir el equipo más allá de los límites del proveedor no siempre es una consideración de la empresa ... En cambio, compre unidades correctamente especificadas para sus propósitos.

HBruijn
fuente
1
Tenga en cuenta que la conversión de AFR a MTTF supone una AFR constante. Esto no es cierto para las cosas con partes móviles (por ejemplo, discos duros), y puede no ser cierto para los SSD.
Mark
Definitivamente cierto. IIRC hay un pico de falla temprana, luego un período de baja falla y luego un aumento constante en la AFR con el aumento de la edad. Agregue factores ambientales cambiantes y el número del mundo real se vuelve mucho más alto. Como @Chris S mencionó, el período de garantía puede ser una mejor métrica con un impacto útil en el mundo real.
HBruijn
Buena visión aleccionadora de que un MTBF de 1'500'000 horas significa realmente "Si tengo 1000 ssd como este, es probable que 3 fallen dentro de los 6 meses (algunos incluso antes de eso) ...". +1 (y como las pruebas duran un período corto, espere que la vida útil de las mismas no exceda demasiado la garantía ... el "MTBF" probablemente baje mucho cuando su unidad alcance N años)
Olivier Dulac
1
@HBruijn Gracias por su respuesta informativa. La curva de la bañera describe el fenómeno al que se refiere (pico de falla temprana, período de fallas bajas, luego aumento constante de fallas) .
OSE
19

Desafortunadamente, el MTBF no es lo que la mayoría de la gente piensa ...

  • No es cuánto durará una unidad individual.

    Los fabricantes esperan que sus unidades duren tanto como la garantía, después de eso realmente no es su problema. Los discos duros de placas electromagnéticas más antiguas se incautarán después de aproximadamente 10 años. Los circuitos integrados duran un tiempo extremadamente largo, pero otros componentes (especialmente los condensadores) se desgastan después de un número predecible de ciclos.

  • Que es cuántas de estas unidades que tendría que esperar 1 unidad a fallar cada hora.

    Como otros han señalado, los fabricantes realizan varias pruebas durante un período de tiempo razonable y determinan una tasa de falla. Hay una buena cantidad de variación en este tipo de pruebas y el marketing a menudo tiene "aportes" sobre cuál debería ser el número final. Independientemente de que hagan el mejor esfuerzo, adivine cuántas unidades serían necesarias para promediar una falla por hora.

    Para situaciones con menos unidades, puede inferir una probabilidad estadística de falla basada en el MTBF, pero tenga en cuenta que las fallas en productos bien diseñados deben seguir una curva de "bañera" , es decir, tasas de falla más altas cuando los dispositivos se ponen en servicio inicialmente y después su período de garantía ha expirado, con tasas de falla más bajas en el medio.

Chris S
fuente
2

Provienen de una evaluación estadística basada en un pequeño tamaño de muestra y un corto período de tiempo. Realmente no hay un método o proceso universalmente acordado, por lo que es realmente un 'marketing' tonto.

Este artículo puede explicarlo un poco más. ¿Y Wikipedia tiene algunas fórmulas que podrían ser lo que estás buscando?

Esencialmente, para casi todo (incluidas las máquinas domésticas en general, como un lavavajillas), varios productos se ejecutan por X cantidad de tiempo. La cantidad de fallas que ocurren durante este período se utilizan para calcular el MTFB.

Por supuesto, no es factible ejecutar productos a lo largo de un ciclo de vida completo, es decir, SSD, que durará mucho tiempo. En su mayoría están limitados por la cantidad de escrituras en lugar de fallas mecánicas (que es para lo que sirve MTFB)

bhavicp
fuente
2

La mala noticia sobre MTBF es que las metodologías de evaluación comunes suponen una carga de escritura distribuida uniformemente entre todas las celdas NAND. Pero las celdas se agrupan en grupos y cuando falla una sola celda, todo el grupo se marca como muerto y se reemplaza por uno nuevo de la reserva. Por lo general, la reserva es aproximadamente el 20% del volumen SSD. Cuando se agote la reserva, todo el SSD se marcará como muerto.

IRL SSD contiene datos persistentes, así como volátiles. Imagine que tiene el 90% de SSD lleno de datos estáticos, y el 10% restante está bajo la pesada carga de escritura. El controlador SSD distribuye la carga entre los clústeres libres disponibles. Ese 10% agota su vida útil 10 veces más rápido de lo que has estimado. Serán reemplazados de la reserva una y otra vez hasta el final.

En el caso realmente malo donde la cantidad de datos persistentes / volátiles es 30: 1 o mayor, por ejemplo, un montón de fotos y una base de datos relativamente pequeña para un sitio web popular, su SSD morirá en un año.

Uno de mis clientes quedó muy impresionado con las características de SSD e insistió en equipar su servidor DBMS con un par de ellas. En los próximos 12 meses los hemos reemplazado a ambos dos veces.

Pero de acuerdo con los materiales de marketing, la vida útil de SSD es de 170 años. Seguro.

Kondybas
fuente
1

El MTBF no es relevante para medir la resistencia de la unidad SSD, ya que la SSD no es sensible por el momento en sí misma como la unidad HDD giratoria ordinaria, sino por el número de reescrituras para las células SSD. La medida más relevante para SSD es Drive Writes Per Day (DWPD) . Por ejemplo, algunos discos SSD de clase empresarial de 3.2 TB de resistencia serían 3 DWPD durante 5 años.

Algunas veces, el proveedor de SSD proporciona resistencia en términos de Terabytes escritos (Total) (TBW) o "Ciclos de escritura" que se pueden traducir fácilmente a DWPD y viceversa, sabiendo el tiempo y el rendimiento máximo para el disco SSD dado.

Para el ejemplo dado con unidad SSD de 3.2Tb:
TBW = DriveSize * Años * DWPD;
TBW = 3.2TB * 5 * 365 * 3d = 17520 TB por 5 años

Si la unidad proporciona 80 MByte por segundo de rendimiento de escritura sostenible,
WriteCycles = DWPD * Años;
WriteCycles = 3 * 365 * 5 = 5475 ciclos de escritura totales para el disco dado

Es importante tener en cuenta que estamos calculando el peor de los casos si proporcionará un rendimiento de utilización del 100% para la unidad (lo que probablemente no sea posible).

BBK
fuente