Tiempo medio de falla (MTTF): cuando los fabricantes de discos publican esto, ¿cómo deben interpretar sus números?

10

El tiempo medio de falla (MTTF) generalmente se da en términos de horas, y al hacer algunos cálculos, parece que un disco debería fallar solo después de un buen número de años.

Parece que los discos necesitan reparación más a menudo que eso. ¿Alguien sabe por qué esto es así?

Pensé que hay algo sospechoso en esta métrica. ¿Estoy interpretando algo mal aquí?

Kaitlyn Mcmordie
fuente

Respuestas:

14

Antes que nada:

MTTF = Tiempo medio de falla
MTTR = Tiempo promedio de reparación
MTBF = Tiempo medio entre fallas = MTTF + MTTR

El MTBF suele ser más o menos igual al MTTF, ya que la reparación puede llevar una hora, y el MTTF puede ser de decenas de miles de horas. Pero también MTBF a menudo no es aplicable, ya que los productos defectuosos no se reparan, sino que simplemente se reemplazan, porque la reparación cuesta más que reemplazar.

El cálculo de MTTF es un método estadístico complejo que implica calcular las probabilidades de fallar en cada una de las partes. Y no es algo lineal como la gente a veces supone. Si tiene un MTTF de 1000 000 horas, eso no significa que en 1000 dispositivos habrá una falla después de 1000 horas, o que obtendrá una falla en 1000 000 dispositivos después de 1 hora.
Muchos dispositivos electrónicos siguen la "curva de la bañera" ,

ingrese la descripción de la imagen aquí

donde hay muchas fallas desde el principio, luego mucho tiempo sin apenas fallas, y cerca del final de la vida, el número de fallas aumenta nuevamente. En los discos duros también hay algunas partes mecánicas que tienen una curva de falla más lineal; esto aumenta lentamente desde el día 1.

Si el fabricante dice, por ejemplo, 1000 000 horas de MTTF (que con frecuencia son POH u Horas de encendido), significa que, en promedio, la unidad debería durar> 100 años. Algunas unidades durarán más, algunas fallarán antes. Entonces, a pesar de las 1000 000 horas, es perfectamente posible tener una falla después de 1000 horas. Una vez tuve una falla de manejo en una semana, y luego tienes que pensar en la curva de la bañera. La unidad de reemplazo ha estado girando felizmente por más de 50k horas.

stevenvh
fuente
3
Algunas cosas que vale la pena señalar pueden ser el hecho de que las fallas tempranas a menudo se llaman quemaduras. Los fabricantes que tienen fallas iniciales mucho más bajas a menudo ejecutan dispositivos durante su fase de quemado. Además de que la electrónica pura, que no presentan un desgaste a cabo periodo y sólo una quemadura en.
Kortuk
1
Tenga en cuenta que cuando calcula el MTTF (o MTBF), generalmente usa una sola distribución para modelar las fallas. Por lo tanto, el cálculo se basa en la distribución de "mortalidad infantil", "vida normal" o "desgaste al final de la vida". Lo único que distingue estas tres distribuciones es el parámetro de forma Weibull, si está usando Weibull como su distribución básica. El único caso en el que las fallas saldrían de la distribución de "vida normal" es cuando el tiempo no tendría ningún efecto en la tasa de fallas y, por lo tanto, la distribución sería exponencial.
2
MTTF es principalmente útil como una indicación de qué tipo de vida debe esperar del dispositivo o widget. No puede ser, por razones obvias, una predicción exacta de la fecha de falla del dispositivo. Es solo una estimación basada en el análisis estadístico de los datos disponibles y debe considerarse solo como tal. Útil para presupuestar (cuánto tiempo debo amortizar o depreciar los costos aquí) y planificar (cuánto tiempo podemos esperar que funcione el widget antes de tener que obtener el siguiente).
music2myear
En primer lugar, ¿qué es exactamente una "falla de disco"?
Kaitlyn Mcmordie
2
@Kaitlyn - Creo que te refieres a sectores defectuosos. Diría que una falla del disco es cuando ya no puede leer o escribir en la unidad. Por lo general, un error mecánico, como un choque de cabeza. Esto suele suceder cuando todavía le quedan muchos sectores buenos.
stevenvh
4

Si un equipo tiene un MTBF de 1,000,000 de horas de uso, eso no significa que se pueda esperar que cualquier equipo dure 1,000,000 de horas. Más bien, significa, más o menos, que si 1,000,000 de equipos que están dentro de su vida útil nominal se operan cada uno por una hora, o 100,000 piezas operan por diez horas (pero aún dentro de la vida útil nominal), o 60,000,000 por un minuto, etc. Habrá aproximadamente una falla en el lote. Tenga en cuenta que la vida útil nominal del servicio es completamente ortogonal al MTBF. Considere los siguientes dos tipos de widgets:

  1. Cada widget, independientemente de su edad, tiene una probabilidad del 0.1% de fallar cada hora.
  2. De cada mil millones de widgets, todos menos uno funcionarán exactamente durante 61 minutos y luego morirán; ese morirá después de 30 minutos; los widgets tienen una vida útil especificada de 60 minutos.

El primer tipo de widget tendría una vida útil promedio de aproximadamente 1,000 horas, y también tendría un MTBF de aproximadamente 1,000 horas. El segundo tendría una vida útil promedio de 61 minutos, pero un MTBF de 1,000,000,000 horas dentro de su vida útil. Si bien puede parecer extraño decir que el segundo dispositivo tiene un MTBF que es casi mil millones de veces más largo que la vida útil esperada, el MTBF no es una cifra sin sentido.

Supongamos que uno va a realizar un experimento que requiere que 1,000,000 de dispositivos funcionen perfectamente durante una hora, después de lo cual todos serán desechados. Si algún dispositivo falla, todo el experimento se arruinará. Lo que sería más útil: un dispositivo que durará un promedio de 1,000 horas pero que tiene un MTBF de solo 1,000 horas, o un dispositivo que duraría como máximo 61 minutos, pero que solo tendría una posibilidad entre mil millones de fallar cumplir con esa marca?

Super gato
fuente
Por lo tanto, en resumen, ¿no deberíamos ver el MTBF de 10 ^ 6 horas como la "vida media" de cualquier disco en particular, sino más bien como una medida relativa a la vida útil de múltiples discos?
Kaitlyn Mcmordie
@Kaitlyn Mcmordie: El término "vida" no es realmente aplicable; la muerte no implica fracaso, ni viceversa. El fabricante de un dispositivo de almacenamiento puede especificar los procedimientos que deben seguirse para evitar la pérdida de datos; dichos procedimientos pueden incluir mover todos los datos de cualquier dispositivo que proporcione una indicación de "falla inminente" a un nuevo dispositivo (después de que se copien los datos, el dispositivo antiguo se consideraría "muerto"). Si no se produce una pérdida de datos de tal evento, no es un error. Sin embargo, la pérdida de datos que se produce desde cualquier dispositivo, incluso uno aparentemente saludable, es una falla. Nada que ver con la vida.
supercat
2

Agregando a la respuesta de stevenvh: todos los fabricantes de discos conocidos hacen una serie de nuevos dispositivos, al igual que los fabricantes de componentes electrónicos. En los discos duros, no solo hay un MTBF y MTTF en general, sino también estadísticas de fallas individuales para los bloques de los discos. En otras palabras: algunas partes de la hilatura, el "plato" en el disco pueden fallar, mientras que la mayoría todavía lee / escribe bien. Los llamados "sectores defectuosos" pueden ser detectados y luego mapeados por el firmware dentro de la unidad.

Todas las unidades actuales contienen sectores adicionales en reserva que luego pueden usarse en lugar de los sectores defectuosos. Esto es simplemente una precaución del fabricante: si no lo hicieran, no podrían vender el disco a la capacidad anunciada. Si incorporan un x% adicional de sectores ocultos como reserva, aumentan el costo en un <x% pero logran un rendimiento de producción general mucho mayor.

Los discos de hoy mantienen un recuento de sectores defectuosos que también se pueden leer con el software adecuado. Este y otros parámetros del estado del disco (p. Ej. Temperatura) se denominan valores SMART .

Ahora, una vez que el fabricante ha realizado la prueba de quemado de la unidad, y algunos de los sectores tienen casi un fallo y han sido reasignados por el firmware interno de la unidad, el parámetro SMART "Recuento de sectores defectuosos" se establece en 0. Luego, el La unidad se entrega a los clientes.

Por lo general, después del proceso de quemado, el cliente ya no ve el inicio de la curva de la bañera que ya se ha mencionado. Somos afortunados y solo vemos un aumento en la probabilidad de falla con el tiempo.

Entonces, si observa el MTTF que cita el fabricante, para cualquier modelado de fallas que desee realizar, puede ignorar el inicio de la curva de la bañera.

cfi
fuente
Gracias. Por cierto, ¿tienes alguna idea de lo que se supone que significa el término "falla del servidor"?
Kaitlyn Mcmordie
El significado obvio es un error encontrado por una computadora que proporciona servicios a otros. Y creo que ese es el momento en el que se supone que debes hacer preguntas en serverfault.com ;-) No se pudo encontrar nada al respecto en las Preguntas frecuentes
cfi
-2

Debes interpretar esto como marketing. En realidad, no conocen el MTBF exacto (tiempo medio entre fallas), por lo que usan varios trucos para estimarlo y muestran números más altos para unidades 'empresariales' para justificar su costo.

En realidad, es rentable para los fabricantes de HDD que sus HDD fallen poco después de que termine la garantía.

Como teoría de la conspiración, creo que el fallo masivo de Seagate 7200.11 fue un error al implementar la 'muerte programada', lo que provocó que los discos fallaran antes de que terminara la garantía, por lo que tuvieron que 'arreglarlo' mediante la actualización del firmware.

BarsMonster
fuente
No compro este argumento de conspiración.
1
@Federico Russo: ¿Por qué? ¿Crees que es solo un error habitual de los desarrolladores, que hace que los HDD se bloqueen en un estado no recuperable después de un cierto número de horas?
BarsMonster
2
-1: El análisis estadístico se usa para determinar los números de MTBF, y es conocido por cierta estadística: no solo están usando "varios trucos". Necesitará algunas fuentes importantes para respaldar sus afirmaciones de que las unidades empresariales son solo números más altos, que los fabricantes de HDD tienen fallas en sus unidades una vez que finaliza la garantía y que Seagate implementa cualquier tipo de 'muerte programada' en sus unidades.
Kevin Vermeer
1
Es en el mejor interés de los fabricantes de unidades mostrar un MTTF más alto que su competencia. +1
tyblu
¿Qué es exactamente una falla de disco? ¿Qué cuenta para uno?
Kaitlyn Mcmordie