En la literatura de aprendizaje automático, para representar una distribución de probabilidad, a menudo se usa la función softmax. ¿Hay alguna razón para esto? ¿Por qué no se usa otra función?
machine-learning
distributions
softmax
SHASHANK GUPTA
fuente
fuente
Softmax también es una generalización de la función sigmoidea logística y, por lo tanto, tiene las propiedades del sigmoide, como la facilidad de diferenciación y el estar en el rango de 0-1. La salida de una función sigmoidea logística también está entre 0 y 1 y, por lo tanto, es naturalmente una opción adecuada para representar la probabilidad. Su derivada también se exopera en términos de su propia producción. Sin embargo, si su función tiene una salida vectorial, debe usar la función Softmax para obtener la distribución de probabilidad sobre el vector de salida. Hay otras ventajas de usar Softmax que Indie AI ha mencionado, aunque no necesariamente tiene nada que ver con la teoría de la Aproximación Universal, ya que Softmax no es una función que solo se usa para Redes Neuronales.
Referencias
fuente