Antes que nada:
MTTF = Tiempo medio de falla
MTTR = Tiempo promedio de reparación
MTBF = Tiempo medio entre fallas = MTTF + MTTR
El MTBF suele ser más o menos igual al MTTF, ya que la reparación puede llevar una hora, y el MTTF puede ser de decenas de miles de horas. Pero también MTBF a menudo no es aplicable, ya que los productos defectuosos no se reparan, sino que simplemente se reemplazan, porque la reparación cuesta más que reemplazar.
El cálculo de MTTF es un método estadístico complejo que implica calcular las probabilidades de fallar en cada una de las partes. Y no es algo lineal como la gente a veces supone. Si tiene un MTTF de 1000 000 horas, eso no significa que en 1000 dispositivos habrá una falla después de 1000 horas, o que obtendrá una falla en 1000 000 dispositivos después de 1 hora.
Muchos dispositivos electrónicos siguen la "curva de la bañera" ,
donde hay muchas fallas desde el principio, luego mucho tiempo sin apenas fallas, y cerca del final de la vida, el número de fallas aumenta nuevamente. En los discos duros también hay algunas partes mecánicas que tienen una curva de falla más lineal; esto aumenta lentamente desde el día 1.
Si el fabricante dice, por ejemplo, 1000 000 horas de MTTF (que con frecuencia son POH u Horas de encendido), significa que, en promedio, la unidad debería durar> 100 años. Algunas unidades durarán más, algunas fallarán antes. Entonces, a pesar de las 1000 000 horas, es perfectamente posible tener una falla después de 1000 horas. Una vez tuve una falla de manejo en una semana, y luego tienes que pensar en la curva de la bañera. La unidad de reemplazo ha estado girando felizmente por más de 50k horas.
Si un equipo tiene un MTBF de 1,000,000 de horas de uso, eso no significa que se pueda esperar que cualquier equipo dure 1,000,000 de horas. Más bien, significa, más o menos, que si 1,000,000 de equipos que están dentro de su vida útil nominal se operan cada uno por una hora, o 100,000 piezas operan por diez horas (pero aún dentro de la vida útil nominal), o 60,000,000 por un minuto, etc. Habrá aproximadamente una falla en el lote. Tenga en cuenta que la vida útil nominal del servicio es completamente ortogonal al MTBF. Considere los siguientes dos tipos de widgets:
El primer tipo de widget tendría una vida útil promedio de aproximadamente 1,000 horas, y también tendría un MTBF de aproximadamente 1,000 horas. El segundo tendría una vida útil promedio de 61 minutos, pero un MTBF de 1,000,000,000 horas dentro de su vida útil. Si bien puede parecer extraño decir que el segundo dispositivo tiene un MTBF que es casi mil millones de veces más largo que la vida útil esperada, el MTBF no es una cifra sin sentido.
Supongamos que uno va a realizar un experimento que requiere que 1,000,000 de dispositivos funcionen perfectamente durante una hora, después de lo cual todos serán desechados. Si algún dispositivo falla, todo el experimento se arruinará. Lo que sería más útil: un dispositivo que durará un promedio de 1,000 horas pero que tiene un MTBF de solo 1,000 horas, o un dispositivo que duraría como máximo 61 minutos, pero que solo tendría una posibilidad entre mil millones de fallar cumplir con esa marca?
fuente
Agregando a la respuesta de stevenvh: todos los fabricantes de discos conocidos hacen una serie de nuevos dispositivos, al igual que los fabricantes de componentes electrónicos. En los discos duros, no solo hay un MTBF y MTTF en general, sino también estadísticas de fallas individuales para los bloques de los discos. En otras palabras: algunas partes de la hilatura, el "plato" en el disco pueden fallar, mientras que la mayoría todavía lee / escribe bien. Los llamados "sectores defectuosos" pueden ser detectados y luego mapeados por el firmware dentro de la unidad.
Todas las unidades actuales contienen sectores adicionales en reserva que luego pueden usarse en lugar de los sectores defectuosos. Esto es simplemente una precaución del fabricante: si no lo hicieran, no podrían vender el disco a la capacidad anunciada. Si incorporan un x% adicional de sectores ocultos como reserva, aumentan el costo en un <x% pero logran un rendimiento de producción general mucho mayor.
Los discos de hoy mantienen un recuento de sectores defectuosos que también se pueden leer con el software adecuado. Este y otros parámetros del estado del disco (p. Ej. Temperatura) se denominan valores SMART .
Ahora, una vez que el fabricante ha realizado la prueba de quemado de la unidad, y algunos de los sectores tienen casi un fallo y han sido reasignados por el firmware interno de la unidad, el parámetro SMART "Recuento de sectores defectuosos" se establece en 0. Luego, el La unidad se entrega a los clientes.
Por lo general, después del proceso de quemado, el cliente ya no ve el inicio de la curva de la bañera que ya se ha mencionado. Somos afortunados y solo vemos un aumento en la probabilidad de falla con el tiempo.
Entonces, si observa el MTTF que cita el fabricante, para cualquier modelado de fallas que desee realizar, puede ignorar el inicio de la curva de la bañera.
fuente
Debes interpretar esto como marketing. En realidad, no conocen el MTBF exacto (tiempo medio entre fallas), por lo que usan varios trucos para estimarlo y muestran números más altos para unidades 'empresariales' para justificar su costo.
En realidad, es rentable para los fabricantes de HDD que sus HDD fallen poco después de que termine la garantía.
Como teoría de la conspiración, creo que el fallo masivo de Seagate 7200.11 fue un error al implementar la 'muerte programada', lo que provocó que los discos fallaran antes de que terminara la garantía, por lo que tuvieron que 'arreglarlo' mediante la actualización del firmware.
fuente