¿Hay alguna razón para cambiar el disco duro de un servidor antes de que falle?

11

Solo una pregunta rápida: ¿hay alguna razón para cambiar el disco duro de un servidor después de x años antes de que falle (eventualmente lo hará en algún momento) o debería dejarlo hasta que falle? Tengo poca experiencia con la administración real del servidor, así que me pregunto ...

Spiros
fuente
No esperaba obtener tantas respuestas, wow :) Después de revisarlas todas y tener en cuenta que a) Los discos duros del servidor son adecuados para sus propósitos b) La copia de seguridad está absolutamente garantizada (Uso de RAID + Replicación esclava + copia de seguridad diaria para una fuente externa) No encuentro ninguna razón para sugerir un cambio de unidad. ¡Gracias a todos!
Spiros

Respuestas:

8

Una buena razón para cambiarlo es si desea agregar otra tarea a su lista de cosas que hacer mientras aumenta las posibilidades de que algo salga mal.

Bromas aparte, realmente no hay ninguna razón de la que haya oído hablar para cambiar el disco antes de tiempo. Si tiene RAID en su lugar, ya tiene protección (suponiendo que tenga copias de seguridad decentes), y no está generando material de desecho en forma de un disco muerto para eliminar y no tiene que trabajar innecesariamente para eliminar datos confidenciales del disco. No gastará dinero extra en unidades nuevas y todavía no se protegerá de manera proactiva contra cosas que podrían salir mal de todos modos, como un controlador de unidad defectuoso, que no es común como una fuente de falla de unidad pero puede suceder.

Por otro lado, esto podría ayudarlo a descubrir errores irrecuperables de la unidad que no están activando alarmas en la unidad RAID, como sucedió con RAID 5. Nos mordió esto y terminamos necesitando reconstruir desde el metal desnudo desde la copia de seguridad (incluso en ese caso, una copia de seguridad adecuada lo ayudará a recuperarse). Un nivel RAID que tenga en cuenta las capacidades de disco más grandes de hoy en día y las tolerancias de error irrecuperables nos habrían ayudado, si no, las copias de seguridad salvan el día.

La mayoría de los administradores tienen un plan de respaldo y RAID decente, por lo que no hay necesidad real de generar desperdicio adicional al reemplazar las unidades innecesariamente.

Bart Silverstrim
fuente
6

El único momento en que podría considerar esto es si tuviera un montón de discos del mismo lote y otros en el lote comenzaran a fallar, entonces podría considerarlo.

Si tuviera poco espacio, entonces seguro, lo haría, pero ¿por otra razón que no sea porque se está haciendo viejo? No, porque en promedio la tasa de falla en el primer año es similar a la tasa de falla en cualquier otro año . (tenga en cuenta que el gráfico se desglosa el primer año durante 3 meses, 6 meses, 1 año, pero tendría que sumarlos todos para tener la posibilidad de fallar en 1 año). Y cuando se observa una alta utilización del disco, es más probable que falle en el primer año que en los próximos tres años combinados.

La única correlación con la falla tardía de la unidad fue en habitaciones más calientes, y mantenemos nuestras salas de servidores frescas.

Joe H.
fuente
5

Estoy a favor de ser proactivo, pero nunca lo he hecho y nunca he oído que alguien lo haga. Presumiblemente, tiene algún tipo de configuración RAID y tiene copias de seguridad válidas y periódicas para los sistemas en cuestión.

joeqwerty
fuente
55
+1, nunca lo consideré. Reemplazar un disco, por si acaso, y activar intencionalmente una reconstrucción de matriz no parece ser la mejor manera de "ejercitar" los discos de producción restantes. Será más difícil explicarle al jefe por qué el sistema está inactivo si falla la reconstrucción.
jscott
3
Reemplazo los discos que tienen errores SMART, pero consideraría que fallaron, incluso si todavía funcionan técnicamente.
Chris S
4

Sí, rendimiento y capacidad. Si el disco duro antiguo realiza lecturas sostenidas de 70 MB / seg y 100 IOPS y el reemplazo potencial realiza lecturas sostenidas de 200 MB / seg y 175 IOPS y también tiene 3 veces la capacidad, puede estar justificado para comprar unidades nuevas y cambiar las antiguas por nuevas simplemente por razones de rendimiento / capacidad. (y esos números están totalmente inventados, el punto es más nuevo puede ser significativamente más rápido).

Ahora, ¿qué haces con los viejos discos? Puede usarlos en un servidor de prueba, o agregarlos a una matriz de copia de seguridad en disco, o conservarlos como repuestos de emergencia. O simplemente puede limpiarlos y enviarlos para su eliminación.

Su servidor promedio hoy en día está vinculado a IO más de lo que está vinculado al procesador (o al menos a todos los míos). Entonces, si tiene un servidor realmente antiguo que no tiene problemas con el tiempo de CPU o la escasez de memoria, es probable que tenga espacio para mejorar significativamente el rendimiento al reemplazar los discos duros que están varias generaciones atrás de lo que puede comprar fácilmente para reemplazarlos.

pplrppl
fuente
3

Depende del impacto si falla el disco duro.

Si no tiene un RAID
Si no le importa la disponibilidad del servidor porque el servicio puede interrumpirse o porque está en alta disponibilidad y si tiene una copia de seguridad de los datos que funcione. Yo diría que está bien, deje que la unidad muera, cámbiela y restaure los datos cuando falle.
Si le importa la disponibilidad, diré que use RAID;)

Si tiene un RAID (1, 5, 6, ...)
, diría, ¿por qué cambiar el disco duro antes de la falla? RAID (y copia de seguridad) está aquí para eso. Cambiar un disco duro en caso de que pueda fallar es un riesgo de romper algo (la reconstrucción de bandas siempre es riesgosa)

¡Pero es solo mi punto de vista! Si cree que su unidad puede ser demasiado antigua, es posible que también desee cambiar su servidor.

radio
fuente
2

Algunos discos mueren en 1 hora, otros duran 2 décadas.

Si no falla o falla (algo que generalmente puede establecer a través de la supervisión SMART o problemas de rendimiento), la única otra razón para descartarlo es si no es lo suficientemente grande o lo suficientemente rápido para sus propósitos.

Chris Thorpe
fuente
1
Simplemente monitoree la unidad con SMART y generalmente mostrará signos de falla antes de que sea demasiado tarde.
Prof. Moriarty
@Prof El estudio de disco masivo de Google mostró que SMART era "usualmente" confiable el 44% -72% del tiempo. static.googleusercontent.com/external_content/untrusted_dlcp/…
jscott
2

Con los discos, la pregunta no es si fallarán, sino cuándo . Son dispositivos mecánicos (a menos que utilicen SSD, pero tienen sus propias advertencias), por lo que fallarán, tarde o temprano.

Los vendedores de discos tienden a adaptar sus procesos de fabricación para que sean lo más baratos posible, porque incluso un centavo ahorrado por disco puede ser muy importante cuando se producen y venden miles de ellos; pero, por supuesto, no quieren que sus discos fallen antes de que finalice el período de garantía, o los reemplazarían de forma gratuita todo el tiempo; entonces, felizmente gastarán tanto como sea necesario para que duren mientras la garantía los cubra ... pero ni un centavo más.

El resultado final es: la mayoría de los discos tienden a fallar poco después de que finaliza el período de garantía. Por supuesto, esto no es una regla general, son solo estadísticas, y su disco podría fallar ahora o durar hasta que ya no lo necesite ... pero, estadísticamente, hay muchos discos que fallan unos días o meses después de su Garantía expirada.

Por supuesto, comprar nuevos cuando aún no los necesita puede ser costoso ... pero reemplazarlos después de que la garantía expire y hayan fallado será costoso de todos modos.

Ahora, si pudieras encontrar una manera de hacer que fallen mientras aún se justifica (y no perder datos en el proceso, es decir, tener un buen RAID Y copias de seguridad), eso sería óptimo ;-)

Massimo
fuente
2

No reemplazaría una unidad en funcionamiento más de lo que reemplazaría una fuente de alimentación en funcionamiento. Ambos fracasarán eventualmente, pero no tiene sentido, ni técnica ni financieramente, reemplazarlos sin una buena causa. Reemplácelos cuando comiencen a mostrar signos de problemas.

En el caso de los discos duros, la tendencia es que si un disco fallará temprano, lo más probable es que lo haga en el primer año. Normalmente, se puede confiar en que las unidades que han funcionado sin problemas durante 6 años continúan funcionando durante al menos unos años más. Obviamente hay muchas excepciones, pero es la tendencia general.

John Gardeniers
fuente
1
Usted (generalmente) no pierde datos cuando falla una fuente de alimentación ...
Massimo
1
@Massimo: es cierto, pero en un servidor tampoco suele perder datos cuando falla una unidad. En mi opinión, si no hay redundancia, es solo una estación de trabajo glorificada, no un servidor real.
John Gardeniers
1

Además, tenga en cuenta que la mayoría de las unidades de clase de servidor tienen requisitos de fabricación más estrictos y generalmente son más confiables que las unidades de escritorio de bajo costo / presupuesto. Por lo tanto, aparte de los peligros de reemplazar una unidad "buena" en caso de que falle, hacer esto para una gran variedad puede sumar una gran suma de dinero.

Además, cuando se usa un RAID, es por eso que es una buena idea tener al menos un repuesto dinámico en el servidor, para que pueda comenzar a reconstruirse rápidamente y mantenerse saludable hasta que compre reemplazos según sea necesario.

usuario2626
fuente
1

Lo he hecho en sistemas de "tiempo de inactividad cero". Sin embargo, es muy probable que pierdas una unidad diferente cuando se reconstruye el RAID ... Cambié una vez, y terminé volviéndola a cambiar cuando otra unidad comenzó a arrojar errores durante la reconstrucción.

Realmente es una cuestión de filosofía: si cree en las pruebas de estrés proactivas (tanto de la matriz como de su sistema cardiovascular), entonces debe cambiar sus unidades. Pero realmente, nunca sabrás qué unidad va a ir mal después. No es nada improbable que pueda perder la unidad recién reemplazada antes de perder cualquiera de las unidades probadas más antiguas.

Dicho esto, perdería mi tiempo en probar mi solución de respaldo y dejaría las unidades en paz hasta que realmente comiencen a arrojar errores.

Satanicpuppy
fuente