La computadora portátil funciona ~ 30 ° más caliente de lo normal; La CPU / carga es, según se informa, normal. ¿Qué podría causar esto y cómo puedo diagnosticarlo?

10

Estoy ejecutando el último Arch Linux en mi portátil ThinkPad t420, y tengo un problema de calor intermitente en el que mi temperatura aumentará de los típicos ~ 45 ° C a ~ 75-90 ° C, y permaneceré allí hasta que reinicie.

Me he encontrado varias herramientas de diagnóstico, incluyendo la obvia htopy otros que google ha sugerido, entre ellos powertop, iostatsy seguramente otros que no recuerdo. Hasta ahora no he encontrado problemas obvios, y aparentemente no hay diferencias en las lecturas de si mi máquina está funcionando normalmente o en este estado caliente.

También eliminé la mayoría de los procesos sospechosos uno por uno (bases de datos y otros demonios), con la esperanza de encontrar al culpable oculto, sin éxito.

Más allá de estos intentos, no sé por dónde comenzar a solucionar problemas . Espero que alguien pueda señalarme en la dirección correcta para comenzar a buscar el problema más profundo.

Para ser precisos, mi pregunta no es cómo enfriar mi máquina, sino ¿qué podría causar un cambio de calor constante de más de 30 grados en un sistema donde (según se informa) la CPU y la carga son normales? ¿Y qué herramientas / prácticas podría usar para diagnosticarlo?

Algunas notas que pueden ser útiles:

  • I puedo enfriar el sistema (por ejemplo desenganchando el control del ventilador completamente), pero inmediatamente se calienta de nuevo si se dejan solos. Esto parece sugerir que la retención de calor no es un problema, sino que algo genera calor continuamente.
  • El uso y la carga de la CPU se informan htopnormalmente después de entrar en este estado activo. Esto incluye hilos de kernel. Según htop, el sistema está esencialmente inactivo (1-2% de uso de CPU en todo el sistema, una carga de 0.10).
  • Mi máquina utiliza gráficos integrados Intel HD y no tiene otra tarjeta gráfica . Una tarjeta nVidia era una opción para este modelo, como señaló @braiam; No opté por eso.
  • @terdon sacó la configuración del regulador de la CPU. Mis CPU están configuradas enpowersave
  • Mi procesador específico es un Core i7-2620M de 2.7GHz.

Editar : Al momento de escribir esta pregunta, mi control de ventilador no funcionaba correctamente y funcionaba continuamente a un rango medio de RPM (3900 RPM), incluso a altas temperaturas. A sugerencia de @Alex y @JustDanyul, esto se ha solucionado. El problema subyacente, sin embargo, aún permanece.

números1311407
fuente
1
Como slm implica, si la CPU está inactiva pero la temperatura del núcleo es demasiado alta, la única explicación posible es que el exceso de calor no se disipó después de algún evento; lo único que puede producir calor significativo es la CPU. Piense en encender el quemador de la estufa para hervir un poco de agua, luego ponerle una tapa y bajar el quemador a bajo nivel: el agua permanece hirviendo perpetuamente porque el calor no puede disiparse tan rápido como el quemador bajo lo reemplaza mientras la tapa está en . Desmóntelo y límpielo si es tan malo, solo soplar aire probablemente no ayudará mucho en este momento.
Ricitos de oro
Definitivamente lo desarmaré y lo limpiaré, ya que sospecho que tengo algunos problemas de flujo de aire, pero como es, la CPU mantendrá una temperatura constante alta indefinidamente después de cualquier evento que cause el cambio extremo de temperatura. Incluso si deja la tapa en la olla, la temperatura del agua bajará en algún momento. Mi temperatura alcanza un número y simplemente permanece allí, constantemente en ese número, para siempre hasta que reinicie. No hay una acumulación gradual de calor que sugiera que está teniendo problemas de disipación. He estado corriendo bajo una carga de trabajo completa toda la mañana y estoy sentado a 41 grados.
números1311407
Para decirlo de otra manera, mi temperatura se regulará normalmente bajo el estrés esperado. Si estoy compilando un poco, podría calentarse a 60, 70 grados, pero cuando esté listo se enfriará.
números1311407
Además del ventilador, es posible que desee volver a aplicar la pasta térmica. La pasta térmica más barata se disipará con el tiempo.
BlueRaja - Danny Pflughoeft
1
Tal vez esta es una pregunta estúpida, pero ¿acabas de deshabilitar ACPI? Tuve problemas similares hace algún tiempo con una PC vieja, que no arrancaba con esta opción habilitada, después de deshabilitarla, finalmente se inició, pero también se estaba sobrecalentando.
Alko

Respuestas:

6

El admirador

El mío también hace esto, ejecuta Fedora 14. Intenta obtener una lata de aire comprimido y soplar las rejillas de ventilación en la parte posterior y lateral de la carcasa.

También periódicamente querrás quitar el teclado y soplar aire comprimido directamente sobre las aspas del ventilador. Se apelmazan con polvo y comienzan a afectar su efectividad ponderándolo.

¡Lo mejor de los Thinkpads son los manuales de servicio! Le muestran cómo desmontar su computadora portátil y volver a armarla.

Mal proceso

La otra cosa que noté es que ocasionalmente tengo un proceso que sale mal y consumirá el 100% de uno de los núcleos. Matar este proceso generalmente hace que la temperatura vuelva a la normalidad.

Puede usar htopo toppara ver qué proceso es este y matarlo desde su o desde un terminal que lo usa PID.

¿Qué más?

Consulte mi respuesta a esta pregunta y respuesta de U&L para obtener más consejos sobre cómo obtener lecturas de temperatura para los diversos componentes de su computadora portátil. El Q&A se titula: Cómo obtener la temperatura central de los núcleos haswell i7 en i3status .

slm
fuente
Esto es definitivamente algo que debería hacer, pero lo extraño para mí es por qué solo pasa al estado de calor a veces y persiste hasta que se reinicia, lo que soluciona el problema de inmediato. Parece que algo debe estar sucediendo, lo que está provocando el cambio persistente en el calor. He corrido htop en vano. El uso de la CPU es normal.
números1311407
¿Quizás alguna señal de estela con el núcleo?
Braiam
1
@slm gracias, no he probado eso. Lo haré la próxima vez que comience a funcionar en caliente e informe los resultados.
números1311407
1
@ numbers1311407: Podría ser la razón por la que el reinicio resuelve el problema rápidamente es que esto apaga la CPU durante unos segundos y permite que la temperatura caiga por debajo del punto de corte. La CPU siempre está más caliente que la temperatura ambiente, sea cual sea la "temperatura ambiente".
Ricitos de Oro
1
Tenga en cuenta que en el topcomando puede presionar "1" para ver la carga de núcleos individuales.
Christian Stewart
3

Este es un comentario más largo, pero debería echar un vistazo a thinkwiki.org , es el recurso para Linux en ThinkPads. En cuanto a la temperatura, tuve problemas similares con mi t4500 y lo resolví jugando con

  1. El gobernador de la CPU que controla la escala de frecuencia de la CPU. Sus elecciones son:

    • El rendimiento mantiene la CPU a la frecuencia más alta posible
    • Powersave mantiene la CPU a la frecuencia más baja posible
    • Userspace exporta la información de frecuencia disponible al nivel de usuario (a través del sistema de archivos / sys) y permite el control del espacio de usuario de la frecuencia de la CPU
    • Ondemand escala las frecuencias de la CPU de acuerdo con el uso de la CPU (al igual que los demonios de escala de frecuencia del espacio de usuario, pero en el núcleo)
    • Actos conservadores como el ondemand pero aumenta la frecuencia paso a paso.

    Con ondemand , su CPU solo funcionará a su máxima velocidad cuando sea necesario. Idealmente, esto será completamente transparente para usted, su máquina simplemente trabajará tan rápido como sea necesario para las tareas actuales. Para activarlo haz

    sudo echo ondemand > /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor
    
  2. Control del ventilador. Existe una utilidad muy agradable llamada " Simple ThinkPad Fan Control " que le permite ajustar las temperaturas de activación que cambian la velocidad del ventilador. También eche un vistazo a la información aquí .

terdon
fuente
Gracias eso es muy útil. Me he topado con esa wiki antes, pero nunca tomé nota de lo que era exactamente.
números1311407
Solo para tener en cuenta, todas mis CPU están funcionandopowersave
números1311407
1

Creo que hay un problema acerca de lo que percibes como "caliente". Para el Thinkpad t420 ( según los foros ) es de aproximadamente 80-85 C y olvidemos la tarjeta nVidia que también puede causar un aumento de la temperatura (de hecho, la configuración de Optimus podría no funcionar bien, lo que obligaría a su CPU a trabajar con GPU). Que por ejemplo, la CPU máxima temperatura tolerado es 100C (si se pone allí el sistema se apagará), mientras que el ambiente es de aproximadamente 10,0 ° C a 35,0 ° C . Dicho esto, si su computadora portátil está dentro del rango, todo está bien (excepto por la vida útil de la batería y la computadora portátil).

Ahora querías señalar posibles sospechosos. En este aspecto, diría que la implementación deficiente de nVidia con Linux puede arrojar trabajo a su CPU que no se mostrará en htop (o en cualquier lugar) debido a su infame sistema On-Demand Optimus, que parece ajustarse a su situación actual ( funciona bien hasta un momento, simplemente comienza a calentar sin control). Debe actualizar su instalación hasta que Bumblebee esté completamente configurado. Puede usar el bbswitchpara desactivar la tarjeta nVidia a voluntad y ver cómo funciona.

Para instalar Bumblebee for Arch , puede encontrar el paquete en el repositorio. Si aún no lo has instalado.

Braiam
fuente
No opté por la tarjeta nVidia en esta máquina. Lo siento, debería haber sido más claro al respecto en la pregunta. Y aunque 80-85 no es demasiado caluroso , todavía es más caluroso que a mediados de los 40, que es a lo que mi computadora normalmente se ejecuta con una carga de trabajo ligera típica. Mi problema es tratar de determinar qué condición fantasma "entra en acción" y hace que mi 45 consistente sea un 80-85 consistente.
números1311407
1

sensores muestra mi ventilador zumbando a ~ 3900 RPM

¿Incluso con temperaturas como ~ 75-90 ° C?

ya que elevar manualmente el ventilador enfriará la máquina temporalmente

Entonces, ¿un problema es que la velocidad del ventilador no funciona automáticamente?

Olvídate del auto, puedes leer la temperatura correctamente y puedes controlar la velocidad del ventilador manualmente, ¿verdad? Si es así, todo lo que necesita hacer es encontrar un script de control de ventilador que funcione o desplegar el suyo (controle la temperatura y establezca la velocidad de acuerdo con una tabla temp[i]=speed[i], cuando establezca una velocidad más alta, manténgala por un tiempo, incluso si la temperatura baja , cuando necesite reducir la velocidad, hágalo lentamente y paso a paso).

Sobre la encuesta, lo mejor sería tener un demonio de monitor de temperatura que desencadene eventos de cambio térmico, y el script de control del ventilador escuchando / esperando esos eventos, pensé (tal vez erróneamente) una vez que lo fue, acpidpero hoy en día no lo sé.

En ambos casos (su propio script / existente), aunque no está seguro de la solución, tenga siempre en cuenta la temperatura y las RPM, el ventilador no debe detenerse.

autoPrimero resuelva este problema, y ​​si el sobrecalentamiento persiste, puede concentrarse en la causa.

editar

Es posible que desee probar una herramienta como lttngrecopilar estadísticas de todo el sistema a lo largo del tiempo, pero podría no ser fácil de configurar y podría ser costoso en términos de almacenamiento si necesita recopilar durante mucho tiempo.

Alex
fuente
Tienes razón en que mi control de ventilador funciona mal, si es que funciona. Buscaré que responda correctamente, pero arreglarlo no resolverá la causa subyacente. Podría soltar la cosa a un máximo de 6400 revoluciones por minuto todo el día y enfriarme un poco, pero es la causa que estoy tratando de abordar.
números1311407
1

Dado que el aumento manual del ventilador resuelve el problema, este sería un excelente lugar para comenzar a solucionar problemas, ya que parece sugerir que el control automático del ventilador no funciona.

Ahora, ejecutas Arch Linux, que es una distribución brillante (sí, yo también la ejecuto) con un wiki excelente. Entonces, tengo que preguntar, ¿RTFM? ;pags

https://wiki.archlinux.org/index.php/Lenovo_ThinkPad_T420#Fans

Por lo que puedo ver, necesitas:

  1. habilitar el módulo del núcleo thinkpad_acpi
  2. instalar y configurar la aplicación thinkfan desde AUR
  3. habilitar el servicio del sistema thinkfan

¿Se ha hecho todo esto?

ACTUALIZACIÓN Me alegra saber que su ventilador ahora funciona correctamente, en lugar de simplemente girar a un medio feliz. (¿Supongo que esto resolvió el problema de su máquina funcionando a temperaturas superiores a 80 grados?)

Con respecto a responder cuál es la causa subyacente de un cambio de temperatura de 30 grados, bueno, me siento tentado a preguntar: ¿No podría ser debido al hecho de que su ventilador no funcionaba correctamente?

Vamos a postular eso,

  • el procesador no funciona más de lo normal
  • las fluctuaciones de temperatura ahora se reemplazan con fluctuaciones de velocidad del ventilador

¿No sería seguro asumir que podría no haber un problema en absoluto, y que el problema era simplemente que su ventilador estaba funcionando a un nivel en el que apenas estaba haciendo frente? ¿Y pequeños cambios en la temperatura ambiente, etc., lo ponen por encima del límite de sus capacidades?

Por ejemplo, tenía una computadora portátil Acer, y en los días cálidos, el ventilador giraba "constantemente" hacia arriba y hacia abajo. Apuesto a que si mi ventilador no pudiera ajustarse realmente, también habría visto fluctuaciones de temperatura bastante grandes :)

JustDanyul
fuente
Acabo de instalar thinkfan. Gracias por el aviso. Sí, el wiki detallado del arco es una gran ventaja de la distribución. He estado allí miles de veces, pero nunca me topé o pensé en buscar una página dedicada a mi modelo exacto, y nunca había visto a thinkfan mencionado. Bonito guionito. Dicho esto, esto no resuelve mi problema real: ¿cómo diagnostico la causa de mi temperatura inusualmente alta? Incluso si desconecté el control del ventilador y solté la cosa a RPM máximas, solo está poniendo una curita sobre el verdadero problema del calor misterioso.
números1311407
No, el problema todavía existe sin cambios. Estoy sentado aquí ahora a 42 grados. Cuando ocurra mi condición de calor, estaré ejecutando los mismos procesos, el ambiente será equivalente, nada aparentemente habrá cambiado, pero mi temperatura aumentará de 42 a 75+. Yo puedo enfriarlo: lo puso en un refrigerador portátil, lo que permite desacoplar el fancontrol a que giran a 6.500 rpm, etc, pero si dejo, que va a calentar la espalda hasta 75+. El ventilador a la velocidad máxima es solo un poco más rápido de lo que estaba funcionando de todos modos. Arreglarlo fue algo bueno, pero no una solución al problema subyacente.
números1311407