Me preguntaba si es una buena idea reemplazar un disco duro en un servidor de base de datos (bastante) crítico para el sistema después de un cierto número de años de uso, antes de que muera.
Por ejemplo, estaba pensando en reemplazar un disco duro después de 3 años de uso. Como tengo muchos discos duros en todos los servidores, podría tambalear qué discos duros se reemplazan.
¿Es esta una buena idea, o la gente simplemente espera el fracaso?
fuente
No.
Uno de los mayores problemas al reemplazar un disco duro en un servidor de producción activo es que al hacerlo se activará una reconstrucción. Especialmente si está utilizando RAID5, y especialmente si está utilizando unidades grandes, forzar una reconstrucción crea un riesgo muy significativo de una falla irrecuperable. El riesgo de perder la matriz durante una reconstrucción es mucho mayor que el riesgo de dejar un disco de 3 años en su lugar.
Tomando un ejemplo extremo, si reemplaza sucesivamente cada disco en una matriz RAID5 de 6 discos compuesta por discos de 2TB, su riesgo teórico de un error de lectura irrecuperable durante una de las reconstrucciones está en el vecindario del 58% (de acuerdo con mis cálculos de servilletas; por favor haga las suyas y compare las notas). En otras palabras: su reemplazo de disco "preventivo" es, en efecto, nada menos que un acto de sabotaje.
El único momento en el que consideraría actualizar las unidades en un servidor antiguo sería en el proceso de "restaurarlo", por ejemplo, después de haber sido dado de baja de una tarea y antes de volver a ponerlo en servicio con una nueva función. Incluso en ese punto, los requisitos de capacidad y rendimiento serían mucho más importantes que la antigüedad de las unidades.
fuente
No lo he visto Mantenemos los servidores en garantía hasta que se retiren de producción: 5 años. RAID 5 estándar le permite sobrevivir a una falla de disco, por lo que solo tenemos un par de unidades disponibles para que podamos comenzar una reconstrucción de inmediato y en servidores críticos, incluimos un hotspare o RAID 10.
Si ha notado que varias unidades fallan recientemente en un servidor puede tener un problema de plano posterior. Podría ser una nueva vibración o polvo también de la construcción cercana.
fuente