El tiempo medio entre fallas puede ser difícil de interpretar, pero existe una gran cantidad de métodos estadísticos que puede usar si tiene algunos datos sólidos.
El problema es que ya nadie informa sus números de MTBF. (Además de los fabricantes de discos duros, de todos modos).
¿A dónde vas para encontrar datos MTBF para componentes y servidores?
Respuestas:
Por qué el MTBF no importa
El tiempo medio entre el número de falla no es tan importante como la tasa de error no corregible. MTBF se ocupa de la falla completa de la pieza, lea la unidad. Sin embargo, ese número no tiene sentido cuando un solo bit por error provocará un pánico RAID 5 y pondrá en funcionamiento el repuesto dinámico.
Si bien el MTBF para unidades de nivel profesional y de consumo ha aumentado en un orden de magnitud en los últimos años, la tasa de error no corregible se ha mantenido relativamente constante. Esta tasa se estima en 10 ^ 14 bits, por lo que un bit por cada 12 terabytes leídos, para unidades SATA de consumo, fuente .
¿Por qué debería perder el sueño sobre su matriz RAID 5?
Entonces, eso son solo 6 pases de una flamante unidad de 2 TB. ¿Cuánto tiempo lleva leer 12 TB de datos? Mucho menos tiempo que el MTBF para esa unidad.
http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/
Lo que es más preocupante es la posibilidad de una falla de doble lectura en una matriz RAID 5 que consiste en unidades de ese tamaño. Con una matriz RAID 5 de 7 1Tb, la probabilidad de una segunda falla de lectura al realizar una reconstrucción RAID es del 50%.
http://blogs.zdnet.com/storage/?p=162
fuente
Es una pena que la gente piense que las cifras de MTBF no se aplican a sistemas complejos. El verdadero problema (afaik) es que los fabricantes no tienen las cifras MTBF para sus módulos de hardware. Estas son cifras que deberían estar disponibles por todos los derechos. Dell dice "Dell ya no enumera MTBF específicos para sus servidores". es realmente atroz! También pueden decir "Bueno, nuestras cosas realmente no son lo suficientemente confiables como para usarse donde se requiere una cifra MTBF".
Se supone que el ingeniero de confiabilidad (o el tipo que usa el sombrero de RE) limita el alcance del estudio de disponibilidad. Esto a menudo se limita a los módulos de hardware.
En cuanto a la clasificación de lo que constituye una falla ... Bueno, es por eso que realizamos un análisis FMECA.
Los sistemas seguros son complejos, y los modos de falla incluyen fallas de software, pero a menudo ese no es el alcance del estudio. Queremos figuras de MTBF para hardware. Pídale a su vendedor que le proporcione esto. Es su responsabilidad técnica proporcionárselo ... Si se niegan o se apartan, vaya a un lugar que tenga servidores de nivel de telecomunicaciones con cifras de disponibilidad obligatorias para el hardware.
fuente
He visto a MTBF informarse en los sitios de soporte de la compañía. Hable con su vendedor o SE para obtener la información.
fuente
En mi opinión, los números MTBF se han convertido en una herramienta de ventas. El hardware moderno ha alcanzado un estado en el que los números MTBF son esencialmente inútiles. Incluso el más bajo de los vendedores de bajo nivel está produciendo hardware que dura más que cualquier ciclo de actualización razonable. Como observa, nadie informa los números de MTBF. Creo que esta es la razón.
fuente
Desafortunadamente, MTBF no es una medida práctica o confiable en servidores modernos. Todo el concepto de MTBF es que si muchos utilizan un modelo / configuración específico durante mucho tiempo, es probable que podamos conocer su fiabilidad.
Hoy en día, la mayoría de nosotros intercambiamos felizmente una confiabilidad adicional potencial por un rendimiento adicional comprobado y eficiencia energética. Por ejemplo, ¿construiría sus nuevos servidores en hardware de 18 a 24 meses solo porque demostró su confiabilidad? o simplemente ir con la última generación de CPU con más núcleos, potencia y eficiencia energética?
Además, a diferencia de los sistemas de telefonía de la vieja escuela, los sistemas son bastante personalizados y, por supuesto, dependen en gran medida del software. ¿Qué tan confiable es la versión del BIOS x.xx o la versión del controlador y.yyy? ¿Los últimos parches del servidor OS / DB / app aumentan la estabilidad o tienen regresiones de estabilidad? ¿Cuántos servidores en el mundo realmente usan la misma mezcla exacta de versión de hardware / pila que usted?
Si necesita alta disponibilidad, de todos modos necesitará agregar redundancia a su sistema (doble-todo, agrupación, repuestos dinámicos, DRP, lo que sea que tenga). Por lo tanto, la confiabilidad relativa de cada componente de hardware generalmente no es un factor significativo, ya que construye su infraestructura para sobrevivir a fallas de componentes individuales. Simplemente viva con la incertidumbre (la confiabilidad es retroactiva) y planifique en consecuencia.
fuente
Estoy de acuerdo con la mayoría de las otras respuestas: los números MTBF no son útiles para mí y nunca los reviso.
La única excepción son los discos duros, pero incluso allí, solo miro MTBF de una manera muy aproximada, asegurándome de comprar los discos más confiables de "clase de servidor" si hay una opción.
fuente