¿Cuál es el límite de temperatura seguro para un disco duro SATA de consumidor?

16

Antecedentes

Mi sistema de escritorio personal en casa tiene 5 unidades SATA acumuladas en el interior. Recientemente, mi sistema comenzó a fallar de manera extraña, como los pánicos aleatorios del kernel y finalmente lo rastreé hasta degradaciones aleatorias en la matriz RAID. A veces podía arrancar, otras veces no podía y así sucesivamente. Después de perseguir problemas de software por un tiempo, finalmente fui a sacar las unidades y descubrí la verdadera razón por la que estaban fallando: ¡estaban más calientes que una barbacoa el 4 de julio! El ventilador de la carcasa frontal se había bloqueado y el ventilador de la PS tenía un conector de alimentación flojo atrapado en la rejilla, por lo que el interior de la carcasa se estaba cocinando.

Como espera, encontré un ventilador de la casa y enfrié ese tonto. Funcionó de maravilla con todo agradable un escalofrío. Alrededor de este tiempo aprendí cómo obtener lecturas de temperatura de la unidad de SMART

for i in a b c d e; do
    sudo smartctl --all /dev/sd$i | grep Temperature_Celsius
done

Ahora sé que con mi estuche se abrió un ventilador de la casa que limpiaba permanentemente las telarañas que las unidades funcionan a 31-32 °. Una prueba rápida sin ventilación para replicar el estado fallido muestra que las unidades llegaron a los 40 s bastante rápido. No sé qué tan malo fue durante el fracaso real o cuánto tiempo ha sido así.

Con esto en mente, reemplacé los ventiladores defectuosos, agregué un par más, actualicé el frontal que soplaba en las unidades de 80 mm a 120 mm y lo cerré de nuevo. Con su posición vertical nuevamente, el rango de temperatura ahora está generalmente en 32 ° en la parte inferior del conjunto y 37 ° en la parte superior.

La pregunta

¿Cuál es un rango de temperatura de funcionamiento seguro general para las unidades SATA? ¿Debería ser una preocupación el 37 ° o el daño del disco no es un problema hasta después de cierto punto?

Aunque las unidades parecen funcionar bien ahora, ¿qué tan probable es que la exposición pasada al calor las haga propensas a fallar ahora?

Caleb
fuente
Una de las cosas que noté especialmente con las nuevas unidades de refrigeración de tecnología en funcionamiento, se calientan MUCHO cuando se usan con dificultad. Si bien mis greens (por ejemplo) están prácticamente fríos la mayoría del tiempo que estoy allí mirando / tocando, todavía se calientan bien cuando están trabajando duro. Lo mismo con los chips del controlador Sata, asegúrese de que el controlador Intel no necesite la gran sincronización pasiva que le agregué, hasta que lo pruebe cuando realmente ha estado trabajando duro. Estoy diciendo que las pruebas (cuando se mira) rara vez representan la realidad cuando las cosas salieron mal. Todo lo demás se dijo, pueden trabajar fácilmente 50 * C
Psycogeek
Relacionado: serverfault.com/questions/25611/…
sampablokuper

Respuestas:

25

37 grados no deberían ser un problema en absoluto. Naturalmente, los discos duros difieren en sus especificaciones, algunos pueden funcionar mejor que otros. Debe verificar las especificaciones publicadas de las unidades que tiene. Por ejemplo, la temperatura operativa de WD Caviar Black 1TB es de -0 ° C a 60 ° C. Por supuesto, no querrá que su unidad funcione a 60 °, ya que podría reducir su vida útil.

Google publicó un estudio muy interesante (PDF) sobre el estado y la vida útil del disco duro, basado en los datos recopilados de sus sistemas (muchos miles de discos duros). Ese estudio dice que:

En general, nuestros experimentos pueden confirmar los efectos de temperatura informados anteriormente solo para el extremo superior de nuestro rango de temperatura y especialmente para unidades más antiguas. En los rangos de temperatura media y baja, las temperaturas más altas no están asociadas con tasas de falla más altas. Este es un resultado bastante sorprendente, que podría indicar que los diseñadores de centros de datos o servidores tienen más libertad de lo que se pensaba anteriormente al establecer temperaturas de funcionamiento para equipos que contienen unidades de disco.

Su gráfico muestra que la tasa de falla no aumenta hasta que la temperatura de la unidad supera los 45 grados.

haimg
fuente
3

Esta es solo mi experiencia personal limitada, pero he ejecutado algunas unidades en el 40C superior sin problemas durante 2-3 años, ya que estaba usando un gabinete silencioso (enfriado por un pequeño ventilador para evitar alcanzar los 50C). A estas temperaturas, asumiría una vida útil más corta y una muerte rápida, en lugar de la corrupción aleatoria de datos, pero podría estar equivocado. En cualquier caso, cualquier cosa por debajo de 40C-42C está bien.

Pero no subestime otros factores que probablemente desempeñen un papel en la corrupción de datos:

1) El puente sur que alberga el chipset del controlador IDE / RAID a menudo se enfría solo con un disipador de calor pequeño. Tienden a calentarse en condiciones normales, por lo que un aumento de la temperatura ambiente debido a la falta de flujo de aire de la caja y muchos discos duros podrían causar corrupción de datos.

2) El sobrecalentamiento de la RAM o la CPU es un culpable común de los errores de memoria CRC, lo que se traduce en corrupción de datos. El monitoreo de la temperatura de la CPU y la realización de pruebas de memoria es esencial cuando se enfrenta a la corrupción de datos.

Si sus indicadores SMART actuales están bien y no muestran recuentos de sectores no corregibles, consideraría que las unidades son seguras para su uso.

mtone
fuente
0

La publicación inicial indicaba que el usuario no sabía qué tan calientes se habían puesto sus unidades: algunos discos registran este parámetro y es accesible a través de la información SMART. El disco duro sentinal es una pieza de software que informa que esto es la temperatura máxima en toda la vida útil.

He visto resultados para discos Maxstor, WD y Seagate

¡Un par de mis unidades USB externas que uso para copias de seguridad muestran temperaturas máximas de 63 y 64 C respectivamente! Ahora he construido un enfriador para la unidad externa

JohnM
fuente
0

He leído el informe mencionado anteriormente y compruebo los rangos de temperatura de funcionamiento de los discos duros Samsung, WD e Hitachi. Con base en la investigación, he concluido que las unidades que operan en los grados 30 a 45 ofrecen la capucha de falla menos probable; Una temperatura alta INTELIGENTE de hasta 55 grados no es motivo de preocupación; y que las temperaturas máximas superiores a 60 grados indicarían una esperanza de vida útil reducida.

Mis propias pruebas indican que es de esperar un aumento de hasta 10 grados durante los períodos de acceso pesado.

Parece haber algún factor desconocido en el trabajo que está causando tasas de falla anormales en unidades externas. Si bien el calor parece ser parte del problema, no es la respuesta completa. Aconsejaría a todos los usuarios de unidades externas que supervisen las temperaturas de cerca cada vez que haya un cambio en la naturaleza del uso o el entorno de las unidades. Esto parece ser un problema "desconocido" (no el habitual) que provoca que estas unidades se sobrecalienten inesperadamente.

Actualmente estoy rechazando la explicación del virus informático, la ignorancia del usuario, los protocolos USB defectuosos y la ubicación de las unidades en una ubicación incorrecta.

Brian
fuente
2
Bienvenido. El propósito de este sitio es compilar preguntas y respuestas de alta calidad en las que las personas puedan confiar como referencia. Un par de cosas en su respuesta pueden hacer que los lectores se pregunten. Usted discute investigación y pruebas. Si esto se publica, sería valioso citar eso. El uso de la palabra "desconocido" plantea una pregunta sobre sus calificaciones. Sería útil describir qué factores conocidos descartó y qué problemas "habituales" causan el sobrecalentamiento. Describa sus pruebas y en cuántas unidades basa su conclusión para que las personas puedan comprender el alcance.
Fixer1234