¿Por qué se utiliza el softmax para representar una distribución de probabilidad?

10

En la literatura de aprendizaje automático, para representar una distribución de probabilidad, a menudo se usa la función softmax. ¿Hay alguna razón para esto? ¿Por qué no se usa otra función?

SHASHANK GUPTA
fuente

Respuestas:

7

Desde una perspectiva de optimización, tiene algunas buenas propiedades en términos de diferenciabilidad. Para muchos problemas de aprendizaje automático, es una buena opción para la clasificación 1-de-N.

Desde una perspectiva de aprendizaje profundo: también se podría argumentar que, en teoría, el uso de una red profunda con un clasificador softmax en la parte superior puede representar cualquier función de probabilidad de clase N sobre el espacio de características, ya que los MLP tienen la propiedad de Aproximación Universal .

AI independiente
fuente
1
Entonces, la razón principal de la popularidad de Softmax es sus buenas propiedades de diferenciación que son útiles en el entorno de aprendizaje basado en gradientes. Eso es todo, ¿verdad?
SHASHANK GUPTA
Yeap, en mi opinión de todos modos. Softmax es un simple con buenos derivados y es atractivo para el aprendizaje basado en gradientes. De acuerdo con todo lo que ha dicho.
Indie AI
Puede pensar que softmax es una función de probabilidad de masa / densidad de la función que va a optimizar. En mi opinión, softmax es solo una forma conveniente de modelar una función de masa / densidad de probabilidad.
Charles Chow
3

Softmax también es una generalización de la función sigmoidea logística y, por lo tanto, tiene las propiedades del sigmoide, como la facilidad de diferenciación y el estar en el rango de 0-1. La salida de una función sigmoidea logística también está entre 0 y 1 y, por lo tanto, es naturalmente una opción adecuada para representar la probabilidad. Su derivada también se exopera en términos de su propia producción. Sin embargo, si su función tiene una salida vectorial, debe usar la función Softmax para obtener la distribución de probabilidad sobre el vector de salida. Hay otras ventajas de usar Softmax que Indie AI ha mencionado, aunque no necesariamente tiene nada que ver con la teoría de la Aproximación Universal, ya que Softmax no es una función que solo se usa para Redes Neuronales.

Referencias

Amir
fuente