La función softmax, comúnmente utilizada en redes neuronales para convertir números reales en probabilidades, es la misma función que la distribución de Boltzmann, la distribución de probabilidad sobre las energías para un conjunto de partículas en equilibrio térmico a una temperatura T dada en termodinámica.
Puedo ver algunas razones heurísticas claras por las que esto es práctico:
- No importa si los valores de entrada son negativos, softmax genera valores positivos que suman uno.
- Siempre es diferenciable, lo cual es útil para la propagación hacia atrás.
- Tiene un parámetro de 'temperatura' que controla cuán indulgente debe ser la red hacia valores pequeños (cuando T es muy grande, todos los resultados son igualmente probables, cuando es muy pequeño, solo se selecciona el valor con la entrada más grande).
¿La función de Boltzmann solo se usa como softmax por razones prácticas, o hay una conexión más profunda con la termodinámica / física estadística?
Respuestas:
Que yo sepa, no hay una razón más profunda, aparte del hecho de que muchas de las personas que tomaron ANN más allá de la etapa de Perceptron eran físicos.
Además de los beneficios mencionados, esta opción particular tiene más ventajas. Como se mencionó, tiene un único parámetro que determina el comportamiento de salida. Que a su vez puede optimizarse o ajustarse en sí mismo.
En resumen, es una función muy útil y bien conocida que logra una especie de "regularización", en el sentido de que incluso los valores de entrada más grandes están restringidos.
Por supuesto, hay muchas otras funciones posibles que cumplen los mismos requisitos, pero son menos conocidas en el mundo de la física. Y la mayoría de las veces, son más difíciles de usar.
fuente
la función softmax también se usa en el modelado de elección discreta, es igual que el modelo logit, si se supone que hay una función de utilidad asociada con cada clase, y la función de utilidad es igual a la salida de la red neuronal + un término de error que sigue a Gumbel distribución, la probabilidad de pertenecer a una clase es igual a la función softmax con la red neuronal como entrada. Ver: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf
existen alternativas al modelo logit, como el modelo probit, donde se supone que el término de error sigue la distribución normal estándar, lo cual es una mejor suposición. sin embargo, la probabilidad sería intratable y es computacionalmente costosa de resolver, por lo tanto, no se usa comúnmente en redes neuronales
fuente