¿Se puede demostrar que ejecutar una GPU a altas temperaturas es malo para la tarjeta?

11

Si ejecuta continuamente su tarjeta gráfica entre 80 ° C y 90 ° C (176 ° F y 194 ° F), ¿es realmente malo para la tarjeta gráfica? Es decir, ¿reduce la vida útil de la tarjeta? ¿Se puede probar esto? ¿O son solo suposiciones?

Entiendo que el cierre de seguridad para las GPU es normalmente de 90 ° C (194 ° F).

Daniel
fuente
El 'apagado de seguridad' depende mucho de dónde se mide la temperatura y con qué proceso y temperatura máxima se diseñó el circuito. Recuerdo hace un tiempo que cierta generación de CPU de Intel tenía una temperatura máxima nominal de 110 ° C, lo que preocupaba a ciertos entusiastas del hardware porque pensaban que los chips se destruirían a sí mismos. Spoiler: no lo hicieron.
Joren Vaes
1
Creo que esta pregunta está muy relacionada con esta otra pregunta ic-product-Lifetime-As-Function-of-Junction-Temperature . La conclusión de esa pregunta es que cada 15 ° C por encima de la temperatura ambiente reduce a la mitad la esperanza de vida de un IC. Entonces, ejecutar una tarjeta gráfica a 90 ° C en comparación con 80 ° C reducirá su vida útil en ~ 37% (por lo tanto, si la esperanza de vida es de 8 años con 80 ° C, es de ~ 5 años con 90 ° C)
Harry Svensson
1
La Ley de Arhennius está más cerca de un aumento de MTBF / 10'C 50% más bajo, pero hay otros factores a tener en cuenta para los dieléctricos donde comienzan con un MTBF mucho más bajo como 1000 h @ 85h o 105h, por lo que sospecho que usan topes de 105'C o mejor.
Tony Stewart Sunnyskyguy EE75

Respuestas:

21

Estudiemos los mecanismos de falla y veamos cómo se ven afectados por el calor. ¡Es muy importante recordar que solo porque un mecanismo de falla ocurre más rápido con la temperatura, la GPU no necesariamente fallará más rápido! Si un subcomponente que dura 100 años a temperatura ambiente solo dura 20 años si hace calor, pero otro subcomponente solo dura 1 año para comenzar (pero no se ve afectado por el calor), la vida útil de su producto difícilmente cambiará con temperatura.

Ignoraré el tema del ciclismo del que habló Simeon, ya que esta no es mi experiencia.

A nivel de placa, puedo pensar en un componente principal que se 'romperá' con la cabeza: los condensadores electrolíticos. Estos condensadores se secan, y se entiende que se secan más rápido cuando se aplica calor. (los condensadores de tantalio también tienden a tener una vida útil más corta, pero no sé cómo esto cambia con el calor).

¿Pero qué hay del silicio?

Aquí, según tengo entendido, hay algunas cosas que pueden causar fallas. Uno de los principales aquí es la electromigración. En un circuito, los electrones que atraviesan pedazos de metal se moverán físicamente alrededor de los átomos. Esto puede empeorar tanto que provocará lagunas en los conductores, lo que puede provocar fallas.

Esta imagen ofrece una buena ilustración (de Tatiana Kozlova, Henny W. Zandbergen; observación TEM in situ de electromigración en nanobridas de Ni):

ingrese la descripción de la imagen aquí

Este proceso aumenta exponencialmente con la temperatura y, por lo tanto, el chip durará menos tiempo si la temperatura es más alta y la electromigración es la principal causa de falla.

El mecanismo de antera es la descomposición del óxido, donde dentro del circuito los transistores sufrirán una perforación de puerta. Esto también depende de la temperatura. Sin embargo, el voltaje tiene un impacto mucho mayor aquí.

También hay un cambio de TV, ya sea debido a la deriva de dopantes o debido a la inyección de portador caliente. La deriva del dopante aumenta con la temperatura (pero es poco probable que sea un problema, especialmente con los circuitos digitales, ya que este es un proceso muy lento). No estoy seguro de la dependencia de la temperatura de la inyección de portador caliente, pero creo que el voltaje es un factor mucho más importante aquí.

Pero entonces hay una pregunta importante: ¿cuánto disminuye esto la vida útil? Sabiendo esto, ¿debes asegurarte de que tu tarjeta gráfica se mantenga fresca todo el tiempo? Supongo que no, a menos que se haya cometido un error en la etapa de diseño. Los circuitos están diseñados teniendo en cuenta estas situaciones del peor de los casos, y están hechos para que sobrevivan si se los lleva al límite de la vida útil nominal del fabricante. En el caso de los circuitos de overclocking de personas: el aumento de voltaje que utilizan a menudo para mantener el circuito estable (ya que puede acelerar un poco los circuitos) hará mucho más daño que la temperatura misma. Además, ese aumento en el voltaje conducirá a un aumento en la corriente, lo que acelerará significativamente los problemas de electromigración.

Joren Vaes
fuente
2
Esas son algunas imágenes fantásticas, siempre me he preguntado cómo se vería físicamente la electromigración.
Cursorkeys
9

Sí, se ha demostrado que el calor degrada los componentes eléctricos. Los metales se expanden cuando se calientan, la soldadura (utilizada para conexiones de circuitos eléctricos) es una aleación de metal, por lo que se expandirá cuando se caliente. El calentamiento y enfriamiento constantes harán que las juntas se expandan y contraigan constantemente, lo que puede provocar grietas y, finalmente, fallas en la junta.

                                                      Gráfico de tasa de falla vs temperatura

El gráfico anterior muestra cómo Arrhenius'Law da una correlación entre un aumento en el calor y la falla de los semiconductores. Este documento detalla los efectos del calor en los componentes electrónicos. Se trata más de cosas a nivel de electrones, lo que está un poco fuera de mi alcance

Simeon R
fuente
1
Puedo creer que el ciclismo es malo debido a la expansión y la contracción, pero ¿hay algún problema con correr a una carga alta y, por lo tanto, a una temperatura alta todo el tiempo?
Colin
Soy un diseñador de circuitos integrados, por lo que tengo poco conocimiento sobre los modos de falla a nivel de la placa, pero en todo mi tiempo reparando cosas (como pasatiempo) todavía tengo que encontrar una falla debido al ciclo de expansión, por lo que tengo que preguntarme qué tan importante es Se compara con otros mecanismos.
Joren Vaes
1
@Colin no existe como "carga alta todo el tiempo"; a menos que solo esté, por ejemplo, extrayendo bitcoin en su GPU, habrá segundos en los que haya más carga que otros. Dado que el enfriamiento tiene que ser bastante potente en las GPU, esto ya lleva a los problemas mencionados. Ver: XBox anillo de la muerte.
Marcus Müller
@ MarcusMüller hay absolutamente. Y no importa que la carga no sea absolutamente constante. Para el ciclismo, la temperatura delta es importante. Una tarjeta que corre el 99% del tiempo con una carga del 95-100% (es decir, calcular) dentro de las temperaturas diseñadas, sería mucho menos susceptible al daño hipotético del ciclo, que la misma tarjeta oscilando entre 0% y 100% salvajemente 50% de el if (es decir, juegos).
Dan M.
6

La relación entre el aumento de la temperatura de unión de un semiconductor y la reducción de su MTBF (tiempo medio entre fallos) se entiende bien.

Esta nota técnica de Micron habla sobre esto

En la práctica, la tasa de falla aumentará exponencialmente una vez que la temperatura de la unión se acerque y exceda ~ 125 ° C, por lo que si está operando muy por debajo de esa temperatura, pequeños incrementos pueden no ser tan críticos.

joribama
fuente