Antecedentes
Mi sistema de escritorio personal en casa tiene 5 unidades SATA acumuladas en el interior. Recientemente, mi sistema comenzó a fallar de manera extraña, como los pánicos aleatorios del kernel y finalmente lo rastreé hasta degradaciones aleatorias en la matriz RAID. A veces podía arrancar, otras veces no podía y así sucesivamente. Después de perseguir problemas de software por un tiempo, finalmente fui a sacar las unidades y descubrí la verdadera razón por la que estaban fallando: ¡estaban más calientes que una barbacoa el 4 de julio! El ventilador de la carcasa frontal se había bloqueado y el ventilador de la PS tenía un conector de alimentación flojo atrapado en la rejilla, por lo que el interior de la carcasa se estaba cocinando.
Como espera, encontré un ventilador de la casa y enfrié ese tonto. Funcionó de maravilla con todo agradable un escalofrío. Alrededor de este tiempo aprendí cómo obtener lecturas de temperatura de la unidad de SMART
for i in a b c d e; do
sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done
Ahora sé que con mi estuche se abrió un ventilador de la casa que limpiaba permanentemente las telarañas que las unidades funcionan a 31-32 °. Una prueba rápida sin ventilación para replicar el estado fallido muestra que las unidades llegaron a los 40 s bastante rápido. No sé qué tan malo fue durante el fracaso real o cuánto tiempo ha sido así.
Con esto en mente, reemplacé los ventiladores defectuosos, agregué un par más, actualicé el frontal que soplaba en las unidades de 80 mm a 120 mm y lo cerré de nuevo. Con su posición vertical nuevamente, el rango de temperatura ahora está generalmente en 32 ° en la parte inferior del conjunto y 37 ° en la parte superior.
La pregunta
¿Cuál es un rango de temperatura de funcionamiento seguro general para las unidades SATA? ¿Debería ser una preocupación el 37 ° o el daño del disco no es un problema hasta después de cierto punto?
Aunque las unidades parecen funcionar bien ahora, ¿qué tan probable es que la exposición pasada al calor las haga propensas a fallar ahora?
Respuestas:
37 grados no deberían ser un problema en absoluto. Naturalmente, los discos duros difieren en sus especificaciones, algunos pueden funcionar mejor que otros. Debe verificar las especificaciones publicadas de las unidades que tiene. Por ejemplo, la temperatura operativa de WD Caviar Black 1TB es de -0 ° C a 60 ° C. Por supuesto, no querrá que su unidad funcione a 60 °, ya que podría reducir su vida útil.
Google publicó un estudio muy interesante (PDF) sobre el estado y la vida útil del disco duro, basado en los datos recopilados de sus sistemas (muchos miles de discos duros). Ese estudio dice que:
Su gráfico muestra que la tasa de falla no aumenta hasta que la temperatura de la unidad supera los 45 grados.
fuente
Esta es solo mi experiencia personal limitada, pero he ejecutado algunas unidades en el 40C superior sin problemas durante 2-3 años, ya que estaba usando un gabinete silencioso (enfriado por un pequeño ventilador para evitar alcanzar los 50C). A estas temperaturas, asumiría una vida útil más corta y una muerte rápida, en lugar de la corrupción aleatoria de datos, pero podría estar equivocado. En cualquier caso, cualquier cosa por debajo de 40C-42C está bien.
Pero no subestime otros factores que probablemente desempeñen un papel en la corrupción de datos:
1) El puente sur que alberga el chipset del controlador IDE / RAID a menudo se enfría solo con un disipador de calor pequeño. Tienden a calentarse en condiciones normales, por lo que un aumento de la temperatura ambiente debido a la falta de flujo de aire de la caja y muchos discos duros podrían causar corrupción de datos.
2) El sobrecalentamiento de la RAM o la CPU es un culpable común de los errores de memoria CRC, lo que se traduce en corrupción de datos. El monitoreo de la temperatura de la CPU y la realización de pruebas de memoria es esencial cuando se enfrenta a la corrupción de datos.
Si sus indicadores SMART actuales están bien y no muestran recuentos de sectores no corregibles, consideraría que las unidades son seguras para su uso.
fuente
La publicación inicial indicaba que el usuario no sabía qué tan calientes se habían puesto sus unidades: algunos discos registran este parámetro y es accesible a través de la información SMART. El disco duro sentinal es una pieza de software que informa que esto es la temperatura máxima en toda la vida útil.
He visto resultados para discos Maxstor, WD y Seagate
¡Un par de mis unidades USB externas que uso para copias de seguridad muestran temperaturas máximas de 63 y 64 C respectivamente! Ahora he construido un enfriador para la unidad externa
fuente
He leído el informe mencionado anteriormente y compruebo los rangos de temperatura de funcionamiento de los discos duros Samsung, WD e Hitachi. Con base en la investigación, he concluido que las unidades que operan en los grados 30 a 45 ofrecen la capucha de falla menos probable; Una temperatura alta INTELIGENTE de hasta 55 grados no es motivo de preocupación; y que las temperaturas máximas superiores a 60 grados indicarían una esperanza de vida útil reducida.
Mis propias pruebas indican que es de esperar un aumento de hasta 10 grados durante los períodos de acceso pesado.
Parece haber algún factor desconocido en el trabajo que está causando tasas de falla anormales en unidades externas. Si bien el calor parece ser parte del problema, no es la respuesta completa. Aconsejaría a todos los usuarios de unidades externas que supervisen las temperaturas de cerca cada vez que haya un cambio en la naturaleza del uso o el entorno de las unidades. Esto parece ser un problema "desconocido" (no el habitual) que provoca que estas unidades se sobrecalienten inesperadamente.
Actualmente estoy rechazando la explicación del virus informático, la ignorancia del usuario, los protocolos USB defectuosos y la ubicación de las unidades en una ubicación incorrecta.
fuente