Alta tasa de fracaso de unidades grandes?

24

Recientemente implementé un servidor con unidades de 5x 1TB (no mencionaré su marca, pero fue una de las dos grandes). Inicialmente, se me advirtió que no obtuviera unidades de gran capacidad, ya que un amigo me aconsejó que tuvieran un MTBF muy bajo, y sería mejor que obtuviera más unidades de menor capacidad, ya que no están "siendo llevadas al límite" en términos de La tecnología puede manejar.

Desde entonces, tres de los cinco discos han fallado. Afortunadamente pude reemplazar y reconstruir la matriz antes de que fallara el siguiente disco, pero me preocupa mucho.

¿Cuáles son tus pensamientos? ¿Acabo de ponerlos en un lote malo? ¿O es más probable que los discos más nuevos / de mayor capacidad fallen que los discos probados y probados?

Mark Henderson
fuente
2
¿Por qué no mencionas la marca? Supongo que su lote era de 7200.11 cudas que se sabe que tienen una tendencia a la muerte prematura.
Dani
En realidad, eran Western Digitals ...
Mark Henderson
Solo para que conste, los recuperé y obtuve todos los nuevos, y han estado funcionando durante dos meses sin ningún problema.
Mark Henderson
Yo tuve una experiencia similar. 16 unidades de 1,5 TB. En los primeros 4 meses, 4 fracasaron. En los siguientes tres años, un soft falló.
David Schwartz

Respuestas:

19

Probablemente tienes un lote malo. Estoy nervioso por desplegar arreglos creados a partir de discos del mismo lote por esa razón: es probable que tengan una vida útil similar, lo que hace que obtener reemplazos sea muy emocionante cuando uno falla.

No es imposible que haya algún defecto de diseño con las unidades, eso definitivamente sucedió antes; sin embargo, generalmente Internet está lleno de quejas sobre el disco si realmente hay algo mal con él, a diferencia del ruido de fondo habitual que encontrará sobre cualquier cosa.

David Mackintosh
fuente
66
+1 Intente espaciar sus compras, obtener fuentes de diferentes comerciantes o mezclar marcas para aliviar esto.
Rob Allen
O puede mitigarlo "grabando" unidades que se obtienen del mismo lugar al mismo tiempo. Ejecute un programa de escritura intensiva contra ellos durante varias horas / días; escalonar las duraciones para simular el envejecimiento dispar. Creé un programa simple llamado DriveTest que escribe datos psuedo-random luego los lee y verifica para "grabar" y hacer un escritorio de prueba simple simultáneamente. Este consejo no se recomienda para SSD.
rkagerer
13

Esta es una pregunta difícil de responder a menos que tenga los recursos de una gran organización. Vea la investigación de Google sobre fallas en el disco duro .

Al realizar una compra importante de discos, determinaré el tamaño aproximado del disco con el menor costo por byte, que generalmente es una generación más antiguo que el último. Esto tiene sentido que mejorarán la confiabilidad de esa generación.

Knox
fuente
1
1.5 a 2TB es el punto de inflexión en este momento, entonces ¿1TB no cumpliría con sus criterios? Son bastante baratos
Mark Ransom
Muy buen punto.
Knox
10

Más platos + más cabezas equivale a una mayor probabilidad de fracaso.

Tome dos discos duros WD comunes

640 GB = dos platos
1 TB = tres platos

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Ese plato adicional = más ruido, más consumo de energía, más calor, un tiempo de preparación del disco más lento, más susceptible a daños por golpes y más vibraciones.

Si hicieran el mismo diseño de unidad con solo un plato, tendría especificaciones aún mejores. En este caso, se trata de unidades de grado de consumo, pero son unidades de grado de consumo de gama alta con el doble de caché y una garantía de 5 años. Verá matemáticas similares si inspecciona de cerca la documentación de cualquier marca o estilo de disco duro tradicional (platos giratorios). Es pura cuestión de física que más platos hacen que una unidad sea menos confiable.

Jeff Hengesbach también tenía razón cuando dijo

La principal preocupación con las unidades 'grandes' es el tiempo de reconstrucción cuando ocurre una falla. Cuanto más grande es la unidad, más larga es la reconstrucción, más grande es la ventana para la falla adicional de la unidad y la pérdida potencial de la matriz. Con las unidades "grandes", el valor comercial de la disponibilidad debe determinar un nivel de riesgo aceptable (pérdida de matriz) que impulsará la selección del nivel RAID y el recuento de unidades (Más unidades = más posibilidades de falla de la unidad).

agregue una pequeña dosis de Graeme Perrow

Una unidad con cincuenta millones de sectores tiene diez veces más posibilidades de tener un sector defectuoso que una unidad con cinco millones de sectores. Supongo que la tasa de falla entre unidades grandes y unidades pequeñas es la misma aquí, lo que probablemente no sea una buena suposición

Más platos = mal
Más espacio de almacenamiento es una bolsa mixta. Pros y contras en eso son numerosos.
Más sectores realmente son más posibilidades de errores. No necesariamente lineal en escala, pero definitivamente es un factor.

A menos que necesite más espacio que confiabilidad, le sugiero que se adhiera a unidades de disco único o disco doble. Se necesita investigación y, en algunos casos, suerte para saber qué obtendrá al ordenar unidades, ya que algunos fabricantes no solo evitan publicar la cantidad de platos, sino que pueden vender más de una unidad con el mismo número de pieza.

Tomemos como ejemplo el WD3200AAKS, hay una versión de disco único de 320 GB y una versión de disco doble de 320 GB (160 GB x 2). Además de eso, hay varias etiquetas y carcasas de unidades que se utilizan, por lo que no puede mirar fácilmente la unidad y saber qué plato hay dentro. La única forma de saber es buscar en línea para saber que WD3200AAKS-00B3A0 y WD3200AAKS-75VYA0 le dicen cuál es un plato único, pero ningún minorista le dirá cuál obtendrá.

pplrppl
fuente
1
Guau. ¡Eso es algo en profundidad! ¡Gracias! Ni siquiera había considerado la cantidad de partes móviles (platos) antes de ahora.
Mark Henderson
3

Creo que una tasa de falla más alta de lo normal es indicativa de cualquier tecnología nueva. Siempre me han dicho que nunca compre el primer año modelo de un automóvil, espere hasta que resuelvan los errores. Yo diría que lo mismo probablemente sea cierto para muchas otras cosas, incluidos los discos duros.

Logan
fuente
1
Puedo dar fe de la analogía de todo el automóvil (las analogías de los automóviles nunca se extravían, ¿verdad?). Admito que estaba apurado y no lo investigé correctamente, ¡y ahora estoy pagando el precio!
Mark Henderson
3

No estoy seguro de que sea justo decir que los discos 'grandes' tienen un MTBF más alto o no. Tengo un gran sistema de nombres con un puñado de unidades de 750 GB y en los últimos 2 años ninguno ha fallado (750 era "grande" hace 2 años). Pero también conozco un gran sistema de nombres que se creó cuando 250 GB era grande y esa matriz se ha caído varias veces. El debate MTBF es una especie de guerra santa.

La principal preocupación con las unidades 'grandes' es el tiempo de reconstrucción cuando ocurre una falla. Cuanto más grande es la unidad, más larga es la reconstrucción, más grande es la ventana para la falla adicional de la unidad y la pérdida potencial de la matriz. Con las unidades "grandes", el valor comercial de la disponibilidad debe determinar un nivel de riesgo aceptable (pérdida de matriz) que impulsará la selección del nivel RAID y el recuento de unidades (Más unidades = más posibilidades de falla de la unidad).

El SATA / RAID empresarial ha avanzado en los últimos años. No creo que los grandes nombres lo ofrecerían si supieran que se trataría de un problema importante de soporte o una fuente de decepción de los clientes. Tengo curiosidad por saber su fiabilidad en el futuro ahora que ha reemplazado parte del lote original.

Jeff Hengesbach
fuente
1

¿Están todos en la misma computadora o controlador de disco? Dijiste que tenías que reconstruir la matriz. Si este es el caso, entonces tal vez hay algún problema con el controlador, la fuente de alimentación o la memoria . Si no, también adivinaría un lote defectuoso de unidades. Además, puede haber un problema de compatibilidad con cualquier unidad particular que esté utilizando con ese controlador en particular.

Además, me pregunto cuándo la gente dice que los discos más grandes tienen un MTBF más alto de cómo se calcula. Digamos que tiene discos de 2x250 GB y 1x500 GB. Tal vez esto sea ingenuo, pero ¿la unidad que contiene el doble de datos tiene más datos con los que podría fallar? Supongo que no sé si MTBF incluye algún error de lectura o escritura incorrecta, o si significa que el disco se rompe mecánicamente. ¿Alguien sabe si existe un estricto estándar de la industria y una definición de MTBF para discos duros?

Kyle Brandt
fuente
1

Aquí hay algunas cosas que comprobaría: 1) ¿Están los números de serie en las unidades bastante cerca? Si es así, es posible que tenga un lote defectuoso 2) ¿Cómo es el entorno en el que vive su servidor? ¿Ha tenido problemas con otro hardware que falla recientemente? 3) ¿Las unidades son unidades Seagate Barracuda? Hay problemas con esas unidades. Vea este artículo de computerworld sobre él. 4) ¿Estas unidades vienen como parte de un sistema? o los compraste tu mismo? Si compró unidades OEM, no hay forma de asegurarse de que las unidades se manejaron con cuidado antes de comprarlas.

Personalmente tuve una suerte increíble con los discos duros. Solo me han fallado dos unidades. Solo uno de esos fallos estaba en una unidad que realmente estaba usando. Sin embargo, a mi alrededor, he visto a muchas personas perder datos en los discos duros.

cyberkni
fuente
Hmm, sí, todos están muy cerca, pero eran WD, no Seagates, y sí, eran unidades OEM ... algunas cosas que no había considerado allí ...
Mark Henderson
1

La mayor tasa de falla de las unidades grandes podría ser una función del tamaño de las unidades. Una unidad con cincuenta millones de sectores tiene diez veces más posibilidades de tener un sector defectuoso que una unidad con cinco millones de sectores. Supongo que la tasa de fallas entre unidades grandes y unidades pequeñas es la misma aquí, lo que probablemente no sea una buena suposición; como alguien más dijo, el hecho de que las unidades de terabytes todavía son relativamente nuevas, probablemente tengan una tasa de falla más alta para empezar con.

En su caso, suena como un mal lote de unidades.

Graeme Perrow
fuente
1

Si compró todas las unidades al mismo tiempo desde el mismo lugar, es posible que todas provengan de un único lote dudoso.

Al armar una matriz RAID, generalmente recomiendo mezclar un poco las unidades, es decir, una mezcla de fabricantes o al menos unidades de diferentes proveedores (para reducir el riesgo de que todas las unidades provengan de un lote defectuoso).

Otra recomendación que haría es utilizar unidades más pequeñas si es posible (es decir, tiene espacio físico para que las unidades y los puertos del controlador las cuelguen), por lo que en lugar de un volumen RAID 1 o dos unidades de 1Tb tienen un RAID 10 de cuatro unidades de 500 Gb. De esta manera, cuando una unidad falla, solo está reconstruyendo una matriz más pequeña que es parte de una matriz más grande en lugar de reconstruir toda la matriz (reduciendo el período de tiempo durante el cual la matriz no está completa), y también ofrece un poco más de redundancia (en cuatro de los seis escenarios de "dos unidades fallan a la vez", vivirá una matriz RAID10 de 4 unidades). También puede hacer lo mismo combinando conjuntos R5 más pequeños en un conjunto R50 si es compatible con su controlador / software RAID.

Tal vez soy demasiado paranoico, pero desconfiaría de confiar 1Tb de datos en una sola unidad, incluso si esa unidad es parte de una matriz redundante.

Obviamente, hay restricciones físicas en juego que pueden hacer que la técnica no sea práctica para ti, las restricciones de extracción de poder también, así que YMMV. Como "por ejemplo" cuando una matriz o matrices no es práctica: prefiero tener cuatro unidades como R10 en uno de nuestros servidores aquí en lugar de las unidades más grandes en una matriz R1, pero físicamente no tiene espacio , comprar / construir una matriz externa estaba fuera del presupuesto, y no pudimos usar el espacio en una matriz existente ya que los datos tenían que mantenerse físicamente separados de todos los demás datos debido a los requisitos de protección de datos.

David Spillett
fuente
1

Alguien hizo un estudio muy detallado sobre este problema de las unidades más grandes. Tiene que ver con la tasa de error de bits que permanece constante a pesar de que el tamaño de la unidad aumentó, más el tiempo más largo que lleva reconstruir las unidades más grandes. Los dos se combinan para colocar una segunda falla durante la reconstrucción en el reino de la realidad. Iría con unidades de 500 gb o más pequeñas en matrices RAID.

bobcov
fuente
1

Utilice siempre discos duros de menor capacidad para uso en producción. Nunca revisó la física detrás de él, pero los discos más pequeños tienden a descomponerse con menos frecuencia. Eso es lo que todos siempre me dijeron.

Alakdae
fuente
0

¿Creó una matriz con discos todos del mismo lote y todos enviados del mismo proveedor? Me dijeron que es algo malo que hacer ...

thijs
fuente
0

Considere RAID-6. La posibilidad de un error de lectura dura durante una reconstrucción RAID-5 es muy real. O RAID-Z con ZFS.

Brian Carlton
fuente