Tengo un servidor Opteron dual que ejecuta Linux con libvirt para alojar varias máquinas virtuales. Las máquinas virtuales funcionan bien y el servidor procesa bien, pero noto que una CPU siempre ejecuta aproximadamente 69C (aceleradores a 70C) y la otra ejecuta aproximadamente 15C.
¿Esto no me parece normal? ¿No deberían estar ambos un poco más cerca de la temperatura?
No estoy seguro de cómo seguir dianose. ¿Quizás no haya suficiente pasta térmica en una de las CPU?
Editar: La placa base es ASUS KGPE-D16 y se enfría con dos ventiladores Noctua NH-U9DO .
Tenga en cuenta que creo que las temperaturas pueden ser inferiores a la temperatura ambiente, en lugar de valores absolutos. Cuando el servidor está inactivo, las temperaturas de la CPU caen a 2 ° C y 13 ° C. Estoy usando la configuración de lmsensors desde aquí
mpstat -P ALL 1
en Linux ayudaráRespuestas:
El problema terminó siendo un disipador de calor mal ajustado. Tal vez mal encajado no es la descripción correcta. Resulta que debes poner pasta térmica en el disipador térmico, no en la cubierta de plástico que cubre el disipador térmico.
Después de quitar la cubierta de plástico, la CPU es agradable y genial, ¡gracias a todos!
fuente
En mi experiencia, es normal que los componentes emparejados en un caso funcionen a diferentes temperaturas, porque el flujo de aire no es el mismo en todas partes. Aquí hay un gráfico de la temperatura del disco duro de mi caja colo. Las unidades se reflejan, por lo que las cargas de trabajo en ellas son casi idénticas.
Como puede ver, se rastrean entre sí, pero no son lo mismo; También están, en promedio, a solo 6 ° C de distancia. Ya sea que sus sensores reporten temperatura absoluta o sobretemperatura, una diferencia de 55C bajo carga parece muy mal. Si tiene confianza en que los datos son correctos, dado que la diferencia de reposo cae a 10 ° C, que es el tipo de diferencia que veo debido al flujo de aire, sospecho que hay un disipador de calor mal ajustado.
fuente
No lo es. A menos que tenga algunos problemas graves con el flujo de aire. O uno de los refrigeradores es malo. La temperatura variará, pero no tanto (70 vs. 15 grados centígrados).
Dado lo bajo que es 15 grados, supongo que (a) su sensor está apagado (¿realmente almacena el servidor en esa habitación fría?).
También asumiría que una de las CPU simplemente no funciona en absoluto, por cualquier razón.
Pequeñas diferencias son normales. Algunos pequeños más grandes pueden ser (el flujo de aire viene a mi mente). pero aquí hablamos de que uno está FRÍO.
fuente
Esto podría ser una carga de enfriamiento o desigual (dada la diferencia de temperatura, su situación probablemente sea una carga desigual). Debería usar algo como prime95 para cargar todos los núcleos de manera uniforme y ver si las temperaturas aún varían. Si no lo hacen, entonces necesita equilibrar las máquinas virtuales, verifique que sus aplicaciones sean multiproceso y estén ocupadas. Cómo hacerlo depende de su software y la carga de trabajo individual, por lo que realmente está fuera del alcance de la pregunta. Tenga en cuenta que no hay una ventaja real al hacer esto si no tiene suficiente carga para completar una sola CPU / núcleo, de hecho, su VM puede evitar deliberadamente el uso de una segunda CPU para que pueda entrar en modos de ahorro de energía en múltiples -sistemas de CPU.
Si lo ha reducido a enfriamiento. Una pequeña diferencia de hasta 10C podría ser muy poca (¡o demasiado!) Pasta térmica. Una diferencia mayor indica un problema o diferencia significativa entre los enfriadores de la CPU. Puede ser que se haya bloqueado el flujo de aire, se haya soltado un disipador térmico, etc.
fuente
Tendría que estar de acuerdo con la temperatura defectuosa. sensor, ya que 15C es solo 59F !!! A menos que la computadora esté en un centro de datos extremadamente frío, ¡me imagino que la temperatura del aire ambiente sería superior a 59F! Intenta asignar las máquinas virtuales al núcleo de baja temperatura y ver si hay algún cambio; si no, sospecharía que el sensor está defectuoso.
También es posible que desee ver la salida de
dmesg
(mensajes de arranque) y ver si hay algo fuera de lo común allí.fuente