Vida media de las unidades SATA?

0

¿Cuál es la vida promedio de un disco duro SATA?

Casi todos los datos que puedo encontrar dan tasas de falla durante los primeros 0-5 años, pero ninguno parece encontrar el final de la vida útil de las unidades.

Los informes, gráficos y estudios de google, backblaze y similares solo cuentan parte de la historia, ya que se centran en los primeros 5 años +/-.

Hipotéticamente decir que el 50% de las unidades mueren en 8 años no infiere que el otro 50% muere en 16 años. ¿Hay un gráfico que lleve el 100% de un conjunto de unidades a su muerte y dé los resultados? ¿O algo que proporcione información equivalente?

Suponiendo una gran carga de trabajo de los consumidores en los discos de los consumidores en el hogar / oficina típico con clima controlado, ¿cuál es el promedio mundial real de vidas en el disco duro? Una vez más, no las tasas de falla dada una (corta) vida útil establecida.

Los resultados del mundo real para nosotros es que hemos tenido menos del 10% de falla de la unidad en 10 años y nunca fallas juntas, así que estoy bastante cómodo con el uso de unidades viejas pero me gusta estar informado cuando sea posible; Nuestro conjunto actual de unidades varía de 0 a 8 (en funcionamiento) con un promedio de alrededor de 3-4 años, la falla más reciente fue una unidad en funcionamiento de 5 años. Además, tenemos una unidad de 40 gb y 80 gb, cada una tiene más de 10 años (fecha de fabricación) y todavía se utilizan de manera confiable aquí y allá. Datos suficientes para decir que los discos duros SATA duran de manera confiable más allá de 5 años, pero no lo suficiente como para mostrar una tendencia de cuánto tiempo.

Fondo:

Nos estamos moviendo a una configuración OBR10 para una pequeña empresa con unidades SATA antiguas de 4 a 6 años y estoy tratando de averiguar qué prudente sería pasar a una copia MD RAID 10 vs 2 de 3 copias.

Con los espejos de datos diarios y las copias de seguridad completas, no sería perjudicial tener una pérdida de matriz primaria completa y la necesidad de reconstruir y restaurar desde la copia de seguridad, pero me encantaría evitar tal situación. Sin embargo , parece que no puedo encontrar datos que se vean mucho más allá de la edad de nuestras unidades actuales . y no hay indicios de que fallen en masa en la marca de 5 +/- años donde los datos parecen detenerse.

Damon
fuente
3
Tienden a fallar por el uso, no por la edad. Entonces, realmente depende de la carga de trabajo. La mejor información que se me ocurre es la que proporciona Backblaze. backblaze.com/blog/hard-drive-failure-rates-q2-2016 - Nadie más que yo conozca publica algo cerca de esto.
djsmiley2k
2
@ djsmiley2k Las tasas de falla anualizadas para unidades de 0 a 5 años no tienen nada que ver con la vida útil promedio de las unidades y tampoco tienen nada que ver con las tasas de falla después de 5 años. Estoy de acuerdo en que la vida útil sin las tasas de falla anualizadas correspondientes para un grupo dado también es problemática para tomar decisiones, pero ¿dónde están los datos para 5-10 años o más? Tiene que haber muchos millones de unidades, si no miles de millones de más de 5 años aún funcionando de manera confiable. Mi suposición es que alguien en alguna parte tiene alguna idea.
Damon
Además, la otra cosa a tener en cuenta es que si tienes una unidad de 10 años, ¿es probable que ejecute SATA 1? En algún momento, se hace más difícil recoger unidades de reemplazo 'en el acto', por decirlo así, y también es más costoso (si es necesario) recuperar datos de dichas unidades.
djsmiley2k
@ djsmiley2k No estoy seguro de estar de acuerdo. SATA I todavía funciona en hardware nuevo (SATA III) y se han ralentizado al cambiar las cosas con tanta frecuencia. Sin mencionar que reemplazar una vieja unidad fallida con una nueva unidad en la nueva interfaz SATA y agregarla a la matriz no es un problema; Además, no necesitamos encontrar una unidad de disco de la misma cosecha para mitigar una unidad fallida, así que no hay problema. Además, la recuperación de datos no sería necesaria con espejos y copias de seguridad.
Damon
entonces surge la pregunta "¿por qué te importa si el disco fallará?"
djsmiley2k

Respuestas:

8

TLDR: es imposible poner un número en la vida media del disco duro, porque es demasiado complejo.

No existe una medida real de la vida promedio, ya que depende en gran medida de una carga completa de factores diferentes. Es un poco como preguntar cuánto tiempo dura un trozo de cuerda . Para una unidad específica, una hoja de datos puede tener información relevante, aunque todavía es una indicación aproximada , que puede ser interpretada con una pizca de sal y hojas de té.

Para empezar, una falla de una sola unidad cuando tiene una unidad es una tragedia tener una unidad de una matriz con incursiones que es parte de un grupo de matrices es una estadística. Uno no puede mirar una unidad específica y decir "esto ciertamente durará una década ". Se puede decir "Esta unidad debería durar 5 años" y planear reemplazarla de manera planificada.

También señalaría que Backblaze y Google, y la mayoría de la industria están preocupados por las tasas promedio de fallas y la confiabilidad durante la vida útil de una unidad en condiciones específicas . Quieren comprar una gran cantidad de unidades, manejarlas de la manera más económica y eficiente posible, y no preocuparse realmente por ellas hasta el reemplazo planificado. Es incluso mejor saber "estas son las señales de que una unidad morirá" que hacer que mueran, y poder equilibrar los costos de enfriar un lugar con los costos de hardware de freír discos duros tostados.

Hablando en términos prácticos, los discos duros son dispositivos básicos y, por lo general, la mayoría de los lugares no hacen un seguimiento de la confiabilidad. Es solo recientemente (¡relativamente!) Que las grandes empresas comenzaron a implementar flotas gigantescas de estas unidades y comenzaron a compartir su información de confiabilidad.

Hay una buena razón por la que hay un enfoque en el análisis predictivo de fallas y en la selección de modelos de confiabilidad a largo plazo . Simplemente todo el hardware muere y es 'más barato' en términos de mano de obra, tiempo de inactividad e incluso, en algunos casos, representa reemplazar las unidades antes de que tiendan a morir por falla mecánica.

Las unidades específicas pueden tener problemas: el Seagate 7200.11 era conocido por morir al azar debido a un mal firmware, por ejemplo, y se solucionó más tarde. Otras marcas y modelos de unidades pueden tener niveles ridículos de confiabilidad. Literalmente, nunca tuve una unidad de escritorio HGST fallida, nunca.

Puede buscar el tiempo medio de falla para el modelo , lo que debería correlacionarse con la vida promedio de la unidad, pero la literatura moderna parece considerarlo una carga de hockey sobre caballos. Seagate ha cambiado a AFR de todos modos.

Mientras miraba esto, me encontré con este gran conjunto de diapositivas de alguien de WD. No estoy seguro de si la conferencia asociada está en algún lugar en línea.

Hay una excelente indicación de cuál es la fiabilidad / vida útil mínima que espera un importante fabricante de discos duros.

Evite una catástrofe no manejable a mitad de camino (o más allá) a través de la vida útil de la garantía del producto

La garantía típica para un dispositivo empresarial y discos duros de consumo antiguos es de 5 años. Son 3 años para las unidades más nuevas. Por lo tanto, su fabricante de discos duros supone que sus unidades no fallarán antes de 5 años porque les costará dinero. Como tal, suponen que asumirías el riesgo o lo reemplazarías después de un tiempo.

El resto de la presentación es una buena lectura, pero se pasa por alto la mayor parte de la física.

Este es un pequeño gráfico simple que muestra todos los elementos involucrados en la confiabilidad del disco duro, tomados del mismo conjunto de diapositivas

ingrese la descripción de la imagen aquí

Y si bien la clásica curva de la bañera es de lo que la gente habla con la confiabilidad del disco, cosas como el ciclo de trabajo real , cuándo ocurren las escrituras en un disco y la temperatura, además de todos estos factores ambientales y de diseño. Es demasiado complejo para adivinar.

Journeyman Geek
fuente
Definitivamente tiene sentido mientras no haya un modelo predictivo real dadas todas las variables. Supongo que tenía el concepto de que con los miles de millones de unidades implementadas, alguien podría haberlas utilizado hasta la muerte y, en un nivel básico, documentar sus resultados en el mundo real. Aunque pude ver cómo la curva de falla para las unidades Hitachi frente a una marca como las unidades Seagate tomadas durante 15 años sería drásticamente diferente, lo que significa que las generalizaciones se romperían a menos que los datos tuvieran suficiente diversidad. Gracias por tu perspicacia!
Damon
Creo que vamos a seguir el concepto sin noticias es una buena noticia. Busqué datos o información que indicara que las unidades fallan o no fallan mucho después de 5 años y no obtuve una respuesta específica al punto, probablemente lo que significa que no es un precipicio de fallas en la marca de 8 años o algo así. Tenemos un pequeño conjunto de datos en las unidades que hemos utilizado, así que creo que comenzaré a rastrear los modelos de unidades, la edad y los años de funcionamiento y ver si podemos encontrar tendencias durante [el período más largo]. Compramos especialmente unidades Hitachi debido a los datos que tenemos, aunque con HGST propiedad de WD, las tendencias cambiarán allí.
Damon