¿Debo 'ejecutar' en un disco de un nuevo par RAID 1 para disminuir la posibilidad de un tiempo de falla similar?

19

Estoy configurando una matriz RAID1 de dos nuevos discos duros de 4TB.

Escuché en algún lugar anteriormente, que al hacer una matriz RAID1 de discos duros nuevos e idénticos comprados al mismo tiempo, aumentaba la posibilidad de que fallaran en un momento similar.

Por lo tanto, estoy considerando usar uno de los discos duros por un período de tiempo (quizás un par de semanas) por sí solo, en un intento por reducir la probabilidad de que ambos fallen en un corto período de tiempo. (la unidad no utilizada se mantendría desconectada en un cajón)

¿Parece esto un enfoque razonable, o es más probable que solo esté perdiendo el tiempo?

a_henderson
fuente
2
Es un reclamo a menudo escuchado, pero aún no he visto ninguna documentación que lo respalde. Un riesgo mucho más real es que uno de sus discos puede desarrollar algunos sectores defectuosos, que pasan desapercibidos por un tiempo. Pero una vez que el otro disco falla, notará esos sectores defectuosos durante la reconstrucción.
kasperd
8
Si estaba trabajando con docenas de unidades, podría valer la pena considerar la obtención de algunos lotes. Para un conjunto de dos unidades, no vale la pena hacer esto. La tasa de fracaso simplemente no es tan similar o predecible ... uno podría durar 3 meses, el otro podría durar 5 años.
jlehtinen
Yo personalmente no atacaría con solo dos unidades. El uso de más unidades proporciona una mejor capacidad. Por ejemplo, 3 unidades producirían 8 TB de almacenamiento total, a diferencia de 2 unidades, dando solo 4 TB. Cualquier unidad puede fallar en el conjunto de tres, y si provienen de tres fuentes, las probabilidades de falla al mismo tiempo son bajas.
phyrfox
3
@phyrfox: RAID-5 (y -6) tiene características de rendimiento diferentes a RAID-1 que pueden no ser compatibles con su aplicación. Con las unidades grandes (especialmente las unidades de calidad del consumidor), si fuera a usar niveles RAID más altos, definitivamente usaría RAID-6 para protegerme contra una segunda falla del disco mientras reconstruía la matriz después de una falla de un solo disco. He estado ejecutando una matriz RAID-6 de 5 discos durante 2 años usando un conjunto de unidades compradas al mismo tiempo: un disco falló al mes, el resto no ha mostrado ningún problema.
Johnny
1
@phyrfox RAID5 disminuirá el costo por megabyte, pero en realidad AUMENTARÁ la posibilidad de experimentar una falla ya que hay más unidades para fallar.
Caltor

Respuestas:

16

Es una pérdida de tiempo.

No podrá inducir fallas o estresar las unidades de manera significativa. Tiene RAID, y ese es un buen comienzo. Solo asegúrese de contar con monitoreo para detectar fallas a medida que ocurren y copias de seguridad para protegerse contra desastres.

ewwhite
fuente
2
De acuerdo con HDS convencional, pero para SSD es una historia muy diferente. Pensé que esto valía la pena señalar ahora antes de que los 4tb ssds se vuelvan baratos y estén disponibles y los lectores no se den cuenta de que estamos hablando de óxido de rotación aquí, pero tal vez para entonces manejarán más escrituras.
symcbean
3
Sí, ciertamente cualquier unidad 'empresarial' ya habrá sido sometida a pruebas de remojo para superar las fallas de la vida temprana en la curva de la bañera de todos modos. Aunque sí sé si compra un par de generadores, el consejo es alternar entre el 66% y el 33%, porque de esa forma no se desgastan simultáneamente. Sin embargo, con las unidades, el MTBF tiene una desviación estándar bastante grande, por lo que es mucho menos preocupante.
Sobrique
5

Puede ser mejor usar diferentes marcas o series de discos juntos si le preocupa esto.

Yo he visto discos de tipo y edad similar fallan en grupos, por lo que en mi humilde opinión no es una Leend urbano.

wurtel
fuente
1
También lo he hecho, pero se ha reducido a un firmware poco fiable en lugar de cualquier cosa relacionada con MTBF.
Sobrique
2

Gran pregunta: sin embargo, a diferencia de los faros de los automóviles, es una pérdida de tiempo. La clasificación MTBF [tiempo medio entre fallas] para unidades de 4 GB [WD Red en este ejemplo] es de 1,000,000 de horas. Las probabilidades de que dos discos funcionen mal en un espejo al mismo tiempo son extremadamente raras. Cuando vi que esto sucedía, fue porque la primera unidad falló sin que nadie lo notara. Más útil para proteger con copias de seguridad que molestarse primero en grabar una unidad. Si combina tipos de unidades, asegúrese de que las unidades tengan la misma velocidad. Si eres paranoico, entonces RAID 10 es para ti.

DocB
fuente
MTBF asume que los discos son independientes, que no están en el mismo conjunto RAID. Hay otras razones por las que esto es una pérdida de tiempo, pero un número ridículo publicado por el fabricante que tiene una correlación débil con la realidad no es una de ellas.
HopelessN00b
55
Si un HDD realmente tenía el tiempo medio establecido entre fallas, ¿por qué los períodos de garantía son tan cortos? 1 millón de horas son 114 años, más o menos. El WD Red Pro (porque elegí uno del lote) parece tener una garantía de cinco años. Incluso si toma la mitad del tiempo medio para fallar, Western Digital todavía no cree que sea confiable por más de aproximadamente una décima parte del período MTBF establecido. Ahora, ¿cuál estaría más inclinado a creer? alguna estadística aleatoria sin obligaciones, o dónde está realmente el dinero? (Vueltas de la garantía, devoluciones, reacondicionados y reemplazos cuestan dinero real.)
un CVn
1
@ MichaelKjörling: Si garantizaran el MTBF, estarían reemplazando más del 50% (sí, una cola demasiado larga en la distribución) de las unidades en garantía. Claro que deberías mirar dónde está el dinero, pero no veo ninguna razón para creer que el MTBF no sea un orden de magnitud más largo que la garantía, y varios para creer que lo es.
Ben Voigt
@ MichaelKjörling He visto hardware con un MTBF publicado de 100k horas que se desgastaría constantemente después de 1k horas de operación. La próxima generación del hardware tenía un MTBF publicado de 200k horas. Cuando el primer lote del nuevo hardware estuvo en funcionamiento durante 48 horas, más del 50% de ellos habían fallado.
kasperd
1

Si bien tiene sentido en teoría, los datos no respaldan la necesidad de work insu unidad.
No solo unas pocas semanas realmente no tendrán un impacto, los porcentajes de falla realmente no funcionan cuando se miran solo dos unidades.

Si bien ha habido alguna indicación de tasas de falla más normalizadas cuando se trata de unidades del mismo modelo.

La mayoría de los resultados relacionados con la edad se ven afectados por las cosechas de impulso ... Curiosamente, esto no cambia nuestras conclusiones. En contraste con los resultados relacionados con la edad, observamos que todos los resultados que se muestran en el resto del documento no se ven afectados significativamente por la mezcla de la población. (énfasis mío)

Como tal, las fallas relacionadas con la edad, que es solo un pequeño subconjunto de fallas, pueden estar algo correlacionadas para impulsar las cosechas. Pero la mayoría de los fracasos no pueden.
Si agrega a esto los porcentajes generales de fallas, que pueden alcanzar un máximo del 8% para un año determinado, las probabilidades de que ambas unidades fallen en el mismo año son pequeñas, y fallarán en la misma semana es insignificante.
Y esto es si observa todas las posibles causas de falla, no solo las fallas relacionadas con la edad.

Si desea minimizar el riesgo, pero dos unidades de una cosecha diferente.
Si quiere garantías, compre un seguro.
Y como ya dijo la respuesta de ewwhite , las copias de seguridad y la supervisión son imprescindibles.

Reaces
fuente
0

Por lo general, este es un argumento para los SSD más que los HDD. Los SSD tienen ciclos de escritura limitados, por lo tanto, si utiliza un RAID1 con dos SSD del mismo modelo, ambos deberían quedarse sin ciclos de escritura casi al mismo tiempo.

En cuanto a fallas generales, a menos que tenga un problema grave como vibración masiva, estática o calor alto; No sospecho que verá que 2 de cada 2 unidades fallan al mismo tiempo.

Una de las principales preocupaciones con RAID1 (y RAID10) con unidades más grandes como 4TB es la reconstrucción. Con un espejo de 2 unidades, cuando una unidad falla, la otra unidad lleva el doble de la carga de trabajo. Luego, cuando reconstruyes, esa unidad recibe aún más carga. Si hubo algún problema con esa unidad, es probable que falle en esas condiciones, especialmente considerando que reconstruir un espejo de 4TB bajo carga puede llevar mucho tiempo.

Devon
fuente
0

Puedes hacerlo, pero no ayudará demasiado.

Por ejemplo, si hay una aguja en la potencia de entrada, la misma aguja matará ambos discos.

Lo que es importante: debe tener una buena copia de seguridad. Raid no compensa una buena copia de seguridad. En realidad, si tiene una buena copia de seguridad, tal vez no sea necesaria una incursión de duplicación (si puede tolerar un colapso del sistema una vez alrededor de 2-3 años).

peterh - Restablece a Monica
fuente
3
RAID se trata de disponibilidad, no de copias de seguridad de datos. El punto es mantener el sistema disponible si falla una unidad, no proteger los datos en la unidad.
HopelessN00b
@ HopelessN00b Esto es exactamente lo que intenté explicar en la respuesta, ¿tal vez no estaba lo suficientemente claro?
peterh - Restablecer Monica
Tu frase al final enturbia las aguas.
HopelessN00b
@ HopelessN00b Raid también protege contra la pérdida de datos causada por fallas de disco. Esto a menudo lleva a la falsa conclusión de que se puede usar como respaldo. Pero el uso de incursiones y las copias de seguridad son cosas que dependen de la situación. Hay casos en los que incluso un entorno profesional de sysadm no los necesita a ambos. En mi opinión, el objetivo no es forzar a ambos a un sistema inexperto, sino dejarlo en claro, que reflejar los discos y hacer copias de seguridad de sus datos son diferentes soluciones para diferentes problemas.
peterh - Restablecer Monica