¿Por qué exactamente los chips comienzan a funcionar mal una vez que se sobrecalientan?

26

Una vez que un chip se sobrecalienta, puede comenzar a funcionar mal; por ejemplo, muchos programas pueden comenzar a fallar una vez que algunas o todas las partes de una computadora se sobrecalientan.

¿Qué sucede exactamente que hace que los chips funcionen mal cuando se sobrecalientan?

diente filoso
fuente

Respuestas:

26

Para ampliar en otras respuestas.

  1. Mayores corrientes de fuga: esto puede conducir a más problemas de calentamiento y puede resultar fácilmente en fugas térmicas.
  2. La relación señal a ruido disminuirá a medida que aumente el ruido térmico : esto puede dar como resultado una tasa de error de bits más alta, esto hará que un programa se lea mal y se malinterpreten los comandos. Esto puede causar una operación "aleatoria".
  3. Los dopantes se vuelven más móviles con el calor. Cuando tiene un chip completamente sobrecalentado, el transistor puede dejar de ser transistores. Esto es irreversible.
  4. El calentamiento desigual puede hacer que la estructura cristalina del Si se descomponga. Una persona normal puede experimentar al someter el vidrio a un choque térmico. Se romperá, un poco extremo, pero ilustra el punto. Esto es irreversible.
  5. Las memorias ROM que dependen de una placa aislada cargada podrán perder memoria a medida que aumenta la temperatura. La energía térmica, si es lo suficientemente alta, puede permitir que la electrónica escape del conductor cargado. Esto puede dañar la memoria del programa. Esto me sucede regularmente durante la soldadura de circuitos integrados que ya están programados cuando alguien sobrecalienta el chip.
  6. Pérdida del control del transistor: con suficiente energía térmica, sus electrones pueden saltar el intervalo de banda. Un semiconductor es un material que tiene un pequeño intervalo de banda, de modo que se puede unir fácilmente con dopantes, pero lo suficientemente grande como para que la temperatura de funcionamiento requerida no lo convierta en un conductor donde el espacio sea menor que la energía térmica del material. Esta es una simplificación excesiva y es la base de otra publicación, pero quería agregarla y ponerla en mis propias palabras.

Hay más razones, pero estas son unas pocas importantes.

Kortuk
fuente
Parece probable que las fallas de temporización sean una de las "más razones" (la resistencia del cable tiende a aumentar con la temperatura, por lo que las rutas de temporización limitadas por capacidad y resistencia podrían violar su peor tiempo garantizado). Por supuesto, DRAM también pierde carga (como la memoria flash) más rápido a temperaturas más altas; sin una compensación en la frecuencia de actualización, los datos se pueden perder.
Paul A. Clayton
13

El principal problema con el funcionamiento de IC a altas temperaturas es el aumento considerable de la corriente de fuga de transistores individuales. La corriente de fuga puede aumentar hasta tal punto que los niveles de voltaje de conmutación de los dispositivos se vean afectados, de modo que las señales no puedan propagarse adecuadamente dentro del chip y deje de funcionar. Por lo general, se recuperan cuando se les permite enfriarse, pero ese no es siempre el caso.

Los procesos de fabricación para operación a alta temperatura (hasta 300 ° C) emplean tecnología CMOS de silicio sobre aislante debido a la baja fuga en un rango de temperatura muy amplio.

Leon Heller
fuente
9

Solo una adición a algunas respuestas excelentes: técnicamente no son los dopantes los que obtienen más movilidad, es un aumento en la concentración de portadores intrínsecos. En todo caso, los dopantes / portadores se vuelven menos móviles a medida que la red de cristal de silicio comienza a "vibrar" debido al aumento de la energía térmica que dificulta el flujo de electrones y agujeros a través del dispositivo: la dispersión óptica del fonón creo que phsyics lo llama, pero puedo estar equivocado.

Cuando la concentración intrínseca del portador aumenta más allá del nivel de dopaje, pierde el control eléctrico del dispositivo. Los portadores intrínsecos son los que están allí antes de dopar el silicio, la idea de los semiconductores es que agreguemos nuestros propios portadores para generar uniones pn y otras cosas interesantes que hacen los transistores. El silicio supera los 150 ° C, por lo que los procesadores de alta velocidad y RF de disipación de calor son muy importantes, ya que 150 ° C no es demasiado difícil de lograr en la práctica. Existe un vínculo directo entre la concentración intrínseca del portador y la corriente de fuga de un dispositivo.

Como lo han demostrado los otros capítulos, esta es solo una de las razones por las que los chips fallan: incluso puede reducirse a algo tan simple como un enlace de alambre que se calienta demasiado y salta de su plataforma, hay una gran lista de cosas.

SimonBarker
fuente
Cuando digo que los dopantes se vuelven más móviles, me refiero a los átomos físicos, no a los portadores. La unión PN puede derivar y dejar de ser un diodo con el tiempo y el calor. En segundo lugar, cuando obtienes una temperatura lo suficientemente alta, tu energía térmica, que crea fonones de alta energía que interactúan con los electrones y niveles de IR mucho más altos dentro de la estructura, puede dar a los electrones la energía lo suficientemente alta como para saltar el intervalo de banda entre las capas de conducción y valencia . El Si supera porque su banda prohibida es tal que 150degC les dará a los electrones la capacidad de saltar.
Kortuk 05 de
Sí, creo que estamos diciendo lo mismo solo desde un punto de partida diferente.
SimonBarker 05 de
1
La forma en que lo está explicando suena exactamente como lo haría después de tomar la física del dispositivo, después de tomar algunos dispositivos cuánticos y de estado sólido aplicados, lo digo de manera un poco diferente, pero ambos sabemos cuán simplificadas están estas explicaciones. Agregué un poco sobre este efecto a mi respuesta, ya que creo que es muy importante, te di tu primer +1, que merecías. Este es un efecto importante, ya que conduce a la fuga térmica muy rápidamente.
Kortuk 05 de
8

Aunque las corrientes de fuga aumentan, esperaría que un problema mayor para muchos dispositivos basados ​​en MOS sea que la cantidad de corriente que pasa a través de un transistor MOS en el estado "encendido" disminuirá a medida que el dispositivo se caliente. Para que un dispositivo funcione correctamente, un transistor que está cambiando un nodo debe poder cargar o descargar cualquier capacitancia latente en esa parte del circuito antes de que cualquier otra cosa dependa de que ese nodo haya sido conmutado. La reducción de la capacidad de paso de corriente de los transistores reducirá la velocidad a la que pueden cargar o descargar nodos. Si un transistor no puede cargar o descargar un nodo suficientemente antes de que otra parte del circuito dependa de que ese nodo haya sido conmutado, el circuito funcionará mal.

Tenga en cuenta que para los dispositivos NMOS, hubo un compromiso de diseño al dimensionar los transistores pasivos pull-up; cuanto mayor sea un pull-up pasivo, más rápido el nodo podría cambiar de bajo a alto, pero más energía se desperdiciaría cada vez que el nodo estuviera bajo. Por lo tanto, muchos de estos dispositivos se operaban algo cerca del borde de la operación correcta y los fallos de funcionamiento basados ​​en el calor eran (y para la electrónica vintage, siguen siendo) bastante comunes. Para la electrónica CMOS común, estos problemas son generalmente menos graves; No tengo idea en la práctica de la medida en que juegan un papel en cosas como los procesadores multi-GHZ.

Super gato
fuente
2
Este es un efecto muy importante, estaba a punto de pedirle a Kortuk que lo agregara a su respuesta. Uno de los factores detrás de la especificación máxima de Tj para un procesador es que por encima de esa Tj, el procesador puede no funcionar a la velocidad nominal. Esta es también la razón por la cual un mejor enfriamiento ayuda en el overclocking.
Andy
El primer párrafo es la razón por la cual su computadora deja de funcionar cuando hace calor: se ralentiza demasiado para mantener el ritmo de la frecuencia del reloj.
W5VO
En realidad, hay otro factor que posiblemente haya jugado un papel en los dispositivos NMOS, aunque no lo esperaría en la mayoría de los diseños típicos: muchos dispositivos NMOS tenían velocidades de reloj mínimas , impuestas por el requisito de usar o actualizar los datos en nodos de almacenamiento dinámico antes de que fuera drenado por fugas. Si las corrientes de fuga aumentan con la temperatura, la velocidad mínima del reloj también aumentaría. Sospecho que la mayoría de los dispositivos fueron operados suficientemente por encima de la velocidad mínima del reloj que un aumento en la velocidad mínima no sería un problema, pero no estoy seguro.
supercat
@Andy, @ W5VO, estaba escribiendo mi respuesta anoche y olvidé eso a mitad de camino. El turno nocturno daña tu cerebro.
Kortuk
2

Para complementar las respuestas existentes, los circuitos de hoy son sensibles a los siguientes dos efectos de envejecimiento (no solo estos, sino que son los principales en los procesos <150 nm):

Debido a que la temperatura aumenta la movilidad de los portadores, aumenta los efectos de HCI y NBTI, pero la temperatura no es la causa principal de NBTI y HCI:

  • HCI es causado por una alta frecuencia
  • NBTI por alto voltaje

Estos dos efectos de envejecimiento de silicio causan daños reversibles e irreversibles a los transistores (al afectar / deteriorar los sustratos aislantes) que aumentan el umbral de voltaje del transistor (Vt). Como resultado, la parte requerirá un voltaje más alto para mantener el mismo nivel de rendimiento, lo que implica un aumento en la temperatura de funcionamiento y, como se dijo en otros postes, se producirá una mayor fuga de la puerta del transistor.

Para resumir, la temperatura realmente no hará que la pieza envejezca más rápido, es la frecuencia y el voltaje más altos (es decir, el overclocking) lo que hará que la pieza envejezca. Pero el envejecimiento de los transistores requerirá un voltaje de operación más alto que hará que la pieza se caliente más.

Corolario: la consecuencia del overclocking es un aumento de la temperatura y el voltaje requerido.

Eric
fuente
1

La razón general por la cual los circuitos integrados fallan irreversiblemente es porque el metal de aluminio dentro de ellos que se usa para crear interconexiones entre los diversos elementos se derrite y abre o acorta los dispositivos.

Sí, las corrientes de fuga aumentarán, pero en general no es la corriente de fuga lo que es un problema, sino el calor que esto causa y el consiguiente daño al metal dentro del CI.

Los circuitos de alimentación (p. Ej., Fuentes de alimentación, controladores de alta corriente, etc.) pueden dañarse porque a altos voltajes, cuando los controladores del transistor se desconectan rápidamente, se generan corrientes internas que provocan el enclavamiento del dispositivo, o una distribución desigual de la energía en su interior que provoca local calentamiento y posterior falla del metal.

Una gran cantidad (1000's) de ciclos térmicos repetidos puede causar fallas debido a desajustes entre la expansión mecánica del IC y el paquete, lo que eventualmente causa que se rompan los cables de unión o la delimitación del material plástico del paquete y la posterior falla mecánica.

Por supuesto, una gran cantidad de especificaciones paramétricas de IC solo se especifican en un rango de temperatura dado, y estas pueden no estar en especificaciones fuera de este. Dependiendo del diseño, esto puede causar fallas o cambios paramétricos inaceptables (mientras el IC está fuera del rango de temperatura), esto puede ocurrir para temperaturas extremadamente altas o bajas.

jp314
fuente
El aluminio se funde a 660 ° C (1220 ° F). Los CI mueren mucho antes de alcanzar esta temperatura.
Dmitry Grigoryev
Fundamentalmente no. A temperaturas inferiores a esta, ciertamente puede obtener un comportamiento eléctrico no deseado; calentamiento excesivo y fuga térmica, pero esto en realidad no causa una falla permanente hasta que una parte del circuito alcanza una temperatura donde el Al (u otro metal) se difunde en el silicio. Este (punto eutéctico) es de alrededor de 500-600 C. La mayoría de las otras fallas son recuperables. Las fallas adicionales pueden ser causadas por fallas eléctricas que permiten aplicar un voltaje excesivo a las puertas del transistor o ciclos térmicos (que causan fallas mecánicas).
jp314
Aún tengo mis dudas. Por ejemplo, los circuitos integrados generalmente especifican la temperatura máxima de soldadura alrededor de 300 ° C, por lo que parece que superar ese límite es suficiente para causar daños permanentes.
Dmitry Grigoryev