¿Dónde encuentra sus datos MTBF?

9

El tiempo medio entre fallas puede ser difícil de interpretar, pero existe una gran cantidad de métodos estadísticos que puede usar si tiene algunos datos sólidos.

El problema es que ya nadie informa sus números de MTBF. (Además de los fabricantes de discos duros, de todos modos).

¿A dónde vas para encontrar datos MTBF para componentes y servidores?


fuente
Tengo curiosidad por saber cómo está utilizando los datos MTBF.
dr.pooter

Respuestas:

2

Por qué el MTBF no importa

El tiempo medio entre el número de falla no es tan importante como la tasa de error no corregible. MTBF se ocupa de la falla completa de la pieza, lea la unidad. Sin embargo, ese número no tiene sentido cuando un solo bit por error provocará un pánico RAID 5 y pondrá en funcionamiento el repuesto dinámico.

Si bien el MTBF para unidades de nivel profesional y de consumo ha aumentado en un orden de magnitud en los últimos años, la tasa de error no corregible se ha mantenido relativamente constante. Esta tasa se estima en 10 ^ 14 bits, por lo que un bit por cada 12 terabytes leídos, para unidades SATA de consumo, fuente .

¿Por qué debería perder el sueño sobre su matriz RAID 5?

Entonces, eso son solo 6 pases de una flamante unidad de 2 TB. ¿Cuánto tiempo lleva leer 12 TB de datos? Mucho menos tiempo que el MTBF para esa unidad.

http://storagemojo.com/2008/02/18/latent-sector-errors-in-disk-drives/

Lo que es más preocupante es la posibilidad de una falla de doble lectura en una matriz RAID 5 que consiste en unidades de ese tamaño. Con una matriz RAID 5 de 7 1Tb, la probabilidad de una segunda falla de lectura al realizar una reconstrucción RAID es del 50%.

http://blogs.zdnet.com/storage/?p=162

Dave Cheney
fuente
¿Siempre podrías usar RAID6 quizás?
Chopper3
3
Gran respuesta, pero solo cubre discos duros
Mark Henderson
@ Chopper3, sí, RAID6 mejora la situación, pero una vez que ha dedicado dos discos a la paridad y un tercero al repuesto dinámico, en una matriz de 7 unidades, se está acercando bastante al mismo espacio que una matriz RAID10.
Dave Cheney el
Estoy buscando datos para algo más que discos duros. Servidores completos aún fallan de vez en cuando, por lo que vale la pena medir con qué frecuencia.
1

Es una pena que la gente piense que las cifras de MTBF no se aplican a sistemas complejos. El verdadero problema (afaik) es que los fabricantes no tienen las cifras MTBF para sus módulos de hardware. Estas son cifras que deberían estar disponibles por todos los derechos. Dell dice "Dell ya no enumera MTBF específicos para sus servidores". es realmente atroz! También pueden decir "Bueno, nuestras cosas realmente no son lo suficientemente confiables como para usarse donde se requiere una cifra MTBF".

Se supone que el ingeniero de confiabilidad (o el tipo que usa el sombrero de RE) limita el alcance del estudio de disponibilidad. Esto a menudo se limita a los módulos de hardware.

En cuanto a la clasificación de lo que constituye una falla ... Bueno, es por eso que realizamos un análisis FMECA.

Los sistemas seguros son complejos, y los modos de falla incluyen fallas de software, pero a menudo ese no es el alcance del estudio. Queremos figuras de MTBF para hardware. Pídale a su vendedor que le proporcione esto. Es su responsabilidad técnica proporcionárselo ... Si se niegan o se apartan, vaya a un lugar que tenga servidores de nivel de telecomunicaciones con cifras de disponibilidad obligatorias para el hardware.

Peter
fuente
El problema cuando un proveedor tiene que publicar el MTBF es que tiene que publicarlo antes de que pueda recopilar datos reales. Por lo tanto, necesitan producir el MTBF a través de algún tipo de extrapolación. A veces eso puede estar muy lejos. El peor de los casos que he visto fue más de tres órdenes de magnitud.
kasperd
0

He visto a MTBF informarse en los sitios de soporte de la compañía. Hable con su vendedor o SE para obtener la información.

pcapademic
fuente
0

En mi opinión, los números MTBF se han convertido en una herramienta de ventas. El hardware moderno ha alcanzado un estado en el que los números MTBF son esencialmente inútiles. Incluso el más bajo de los vendedores de bajo nivel está produciendo hardware que dura más que cualquier ciclo de actualización razonable. Como observa, nadie informa los números de MTBF. Creo que esta es la razón.

dr.pooter
fuente
Y, sin embargo, algunos servidores son aún más confiables que otros. Necesitamos responder preguntas como "¿Vale la pena una segunda fuente de alimentación?" Para eso necesitamos datos. Idealmente, eso sería estadísticas de fallas reales reportadas en una población de dispositivos similares. Usamos MTBF como un proxy débil para esa distribución real.
Lo suficientemente justo. En mi pequeño mundo, la idea de redundancia es una parte esperada del proceso. Para otro ejemplo, mira la mayoría de los proveedores de alojamiento a gran escala, o google. Todavía sugiero que, dado el estado de los productos básicos de los servidores wintel, este es un problema cada vez menor. Si está hablando de la serie z o similar, las ecuaciones y expectativas son muy diferentes.
dr.pooter
0

Desafortunadamente, MTBF no es una medida práctica o confiable en servidores modernos. Todo el concepto de MTBF es que si muchos utilizan un modelo / configuración específico durante mucho tiempo, es probable que podamos conocer su fiabilidad.

Hoy en día, la mayoría de nosotros intercambiamos felizmente una confiabilidad adicional potencial por un rendimiento adicional comprobado y eficiencia energética. Por ejemplo, ¿construiría sus nuevos servidores en hardware de 18 a 24 meses solo porque demostró su confiabilidad? o simplemente ir con la última generación de CPU con más núcleos, potencia y eficiencia energética?

Además, a diferencia de los sistemas de telefonía de la vieja escuela, los sistemas son bastante personalizados y, por supuesto, dependen en gran medida del software. ¿Qué tan confiable es la versión del BIOS x.xx o la versión del controlador y.yyy? ¿Los últimos parches del servidor OS / DB / app aumentan la estabilidad o tienen regresiones de estabilidad? ¿Cuántos servidores en el mundo realmente usan la misma mezcla exacta de versión de hardware / pila que usted?

Si necesita alta disponibilidad, de todos modos necesitará agregar redundancia a su sistema (doble-todo, agrupación, repuestos dinámicos, DRP, lo que sea que tenga). Por lo tanto, la confiabilidad relativa de cada componente de hardware generalmente no es un factor significativo, ya que construye su infraestructura para sobrevivir a fallas de componentes individuales. Simplemente viva con la incertidumbre (la confiabilidad es retroactiva) y planifique en consecuencia.

Ofir Manor
fuente
El problema de las configuraciones que cambian constantemente es real. Eso dificulta la acumulación de experiencia con un único punto de configuración. Sin embargo, si está planeando HA, incluso con una configuración redundante, debe tener alguna noción de la confiabilidad de los dispositivos individuales.
Parece que no hay esperanza de que TI se convierta en una ciencia. Seguimos trabajando en suposiciones, sin datos duros y desperdicio de recursos. Más como magia negra que nada en estos días. La ingeniería parece un objetivo lejano.
Giovanni Tirloni
0

Estoy de acuerdo con la mayoría de las otras respuestas: los números MTBF no son útiles para mí y nunca los reviso.

La única excepción son los discos duros, pero incluso allí, solo miro MTBF de una manera muy aproximada, asegurándome de comprar los discos más confiables de "clase de servidor" si hay una opción.

Ward - Restablece a Monica
fuente