¿Qué es la temperatura en LSTM (y redes neuronales en general)?

Respuestas:

28

La temperatura es un hiperparámetro de LSTM (y redes neuronales en general) que se utiliza para controlar la aleatoriedad de las predicciones al escalar los logits antes de aplicar softmax. Por ejemplo, en la implementación Magenta de LSTM de TensorFlow, la temperatura representa cuánto dividir los logits antes de calcular el softmax.

Cuando la temperatura es 1, calculamos el softmax directamente en los logits (la salida sin escala de las capas anteriores), y usando una temperatura de 0.6 el modelo calcula el softmax en , resultando en un valor mayor. Realizar softmax en valores mayores hace que el LSTM seamás seguro(se necesita menos entrada para activar la capa de salida) pero tambiénmás conservadoren sus muestras (es menos probable que muestree de candidatos poco probables). El uso de una temperatura más alta produce una distribución de probabilidad más suave sobre las clases y hace que el RNN sea más "fácilmente excitado" por las muestras, lo que resulta en unamayor diversidady tambiénmás errores.logits0.6

Las redes neuronales producen probabilidades de clase con el vector logit donde z = ( z 1 , , z n ) al realizar la función softmax para producir el vector de probabilidad q = ( q 1 , , q n ) al comparar z i con los otros logits .zz=(z1,,zn)q=(q1,,qn)zi

(1)qi=exp(zi/T)jexp(zj/T)

T

La función softmax normaliza a los candidatos en cada iteración de la red en función de sus valores exponenciales al garantizar que las salidas de la red se encuentren entre cero y uno en cada paso de tiempo.

La temperatura, por lo tanto, aumenta la sensibilidad a los candidatos de baja probabilidad. En LSTM, el candidato o muestra puede ser una letra, una palabra o una nota musical, por ejemplo:

ττ0+

- del artículo de Wikipedia sobre la función softmax

Referencia

Hinton, Geoffrey, Oriol Vinyals y Jeff Dean. "Destilando el conocimiento en una red neuronal". preimpresión arXiv arXiv: 1503.02531 (2015). arXiv

Justin Shenk
fuente
3
Es en alusión a la distribución de Boltzmann (o distribución de Gibbs) , una distribución de probabilidad utilizada en la mecánica estadística.
mc2