Sustitución de discos duros [cerrado]

19

Me preguntaba si es una buena idea reemplazar un disco duro en un servidor de base de datos (bastante) crítico para el sistema después de un cierto número de años de uso, antes de que muera.

Por ejemplo, estaba pensando en reemplazar un disco duro después de 3 años de uso. Como tengo muchos discos duros en todos los servidores, podría tambalear qué discos duros se reemplazan.

¿Es esta una buena idea, o la gente simplemente espera el fracaso?

Garfonzo
fuente

Respuestas:

33

Google realizó un estudio sobre unidades de disco y encontró muy poca correlación entre la antigüedad del disco y la falla. Las pruebas SMART tampoco muestran fallas.

Mis observaciones locales (> 500 servidores) son similares. Tengo nuevos discos que fallan rápidamente, mientras que los viejos siguen funcionando.

Mi regla general es que si vemos problemas de disco (SMART o errores del sistema) lo reemplazamos de inmediato. De lo contrario, las unidades se desconectan cuando el servidor lo hace.

Estudio de Google http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

jeffatrackaid
fuente
Esto era generalmente lo que estaba pensando, pero quería ver lo que otros hacían. Gracias
Garfonzo
2
Estoy de acuerdo. ¡Estamos viendo tasas de falla mucho más altas con las unidades SAS más nuevas de 2.5 "que con los servidores de 10 años que ejecutan unidades SCSI 3.5" de 9GB!
James O'Gorman
@ JamesO'Gorman Los procesos de fabricación cambian ... me hace preguntarme qué se ha hecho con las nuevas unidades como parte de una "compensación" de ingeniería.
Avery Payne
1
Microsoft Technet también tiene un artículo sobre Fault Tolerance que trata brevemente sobre la falla del disco duro / componente mecánico ( technet.microsoft.com/en-us/library/bb742464.aspx ) - Hablan un poco sobre la "curva de la bañera" que es mecánica fallas en los componentes tienden a seguir.
voretaq7
@AveryPayne Re unidades nuevas, tenga en cuenta que las unidades de 2.5 "tienen MUCHAS tolerancias más estrictas. Como resultado, lo que solía ser una pendiente mecánica" aceptable "en una unidad de 3.5" puede conducir a una falla catastrófica en una unidad de 2.5 ". Consulte también el artículo de TechNet. Me relacioné con la curva de la bañera: los componentes mecánicos sufren de una alta mortalidad infantil en general y luego son relativamente estables hasta que finalmente mueren de "vejez". al menos 1 año de operación.
voretaq7
13

No.

Uno de los mayores problemas al reemplazar un disco duro en un servidor de producción activo es que al hacerlo se activará una reconstrucción. Especialmente si está utilizando RAID5, y especialmente si está utilizando unidades grandes, forzar una reconstrucción crea un riesgo muy significativo de una falla irrecuperable. El riesgo de perder la matriz durante una reconstrucción es mucho mayor que el riesgo de dejar un disco de 3 años en su lugar.

Tomando un ejemplo extremo, si reemplaza sucesivamente cada disco en una matriz RAID5 de 6 discos compuesta por discos de 2TB, su riesgo teórico de un error de lectura irrecuperable durante una de las reconstrucciones está en el vecindario del 58% (de acuerdo con mis cálculos de servilletas; por favor haga las suyas y compare las notas). En otras palabras: su reemplazo de disco "preventivo" es, en efecto, nada menos que un acto de sabotaje.

El único momento en el que consideraría actualizar las unidades en un servidor antiguo sería en el proceso de "restaurarlo", por ejemplo, después de haber sido dado de baja de una tarea y antes de volver a ponerlo en servicio con una nueva función. Incluso en ese punto, los requisitos de capacidad y rendimiento serían mucho más importantes que la antigüedad de las unidades.

Skyhawk
fuente
1
+1 para activar la reconstrucción
gregmac
¿Puede explicar por qué el riesgo es del 58%? Si el disco se patrulla regularmente, ¿por qué sería más estresante la recuperación?
Mircea Vutcovici
@MirceaVutcovici porque en una disposición RAID-5, todas las unidades estarán constantemente activas durante la reconstrucción frente a la búsqueda aleatoria ocasional aquí o allá. En otras palabras, la "carga" en todas las unidades aumenta y, al hacerlo, también aumenta el riesgo de activar una segunda unidad fallida.
Avery Payne
@Avery Payne Sé que estresas más los discos durante una reconstrucción. Estoy tratando de entender por qué una reconstrucción estresaría más los discos que una verificación de consistencia.
Mircea Vutcovici
@MirceaVutcovici La cifra exacta (y cómo hacer los cálculos) es discutible, pero la conclusión es que debe leer 10 terabytes de datos seis veces , sin el beneficio de un disco de paridad para corregir cualquier error de lectura, a fin de realizar el Seis reconstrucciones. La probabilidad de leer 60 terabytes de datos, sin ningún error, no está a su favor.
Skyhawk
3

No lo he visto Mantenemos los servidores en garantía hasta que se retiren de producción: 5 años. RAID 5 estándar le permite sobrevivir a una falla de disco, por lo que solo tenemos un par de unidades disponibles para que podamos comenzar una reconstrucción de inmediato y en servidores críticos, incluimos un hotspare o RAID 10.

Si ha notado que varias unidades fallan recientemente en un servidor puede tener un problema de plano posterior. Podría ser una nueva vibración o polvo también de la construcción cercana.

Paul Ackerman
fuente
Esto no es enteramente verdad. Si una gran cantidad de sus discos son del mismo lote, corre un riesgo mucho mayor de fallas simultáneas cuando agrega el estrés de una reconstrucción. Como se señaló en otra respuesta, los tamaños cada vez mayores de RAID5 corren mayores probabilidades de un URE durante la reconstrucción que lleva su matriz por debajo del umbral de validez de raid5.
Magellan