La aplicación de la función softmax en un vector producirá "probabilidades" y valores entre y .
Pero también podemos dividir cada valor por la suma del vector y eso producirá probabilidades y valores entre y .
Leí la respuesta aquí, pero dice que la razón es porque es diferenciable, aunque ambas funciones son diferenciables.
Respuestas:
La función que propone tiene una singularidad siempre que la suma de los elementos sea cero.
Suponga que su vector es . Este vector tiene una suma de 0, por lo que la división no está definida. La función no es diferenciable aquí.[−1,13,23]
Además, si uno o más de los elementos del vector son negativos pero la suma no es cero, su resultado no es una probabilidad.
Suponga que su vector es . Esto tiene una suma de 1, por lo que la aplicación de su función da como resultado , que no es un vector de probabilidad porque tiene elementos negativos y elementos superiores a 1.[−1,0,2] [−1,0,2]
Desde una perspectiva más amplia, podemos motivar la forma específica de la función softmax desde la perspectiva de extender la regresión logística binaria al caso de tres o más resultados categóricos.
Hacer las cosas como tomar valores absolutos o cuadrados, como se sugiere en los comentarios, medios que y tienen la misma probabilidad predicha; Esto significa que el modelo no está identificado . Por el contrario, es monotónico y positivo para todas las reales , por lo que el resultado de softmax es (1) un vector de probabilidad y (2) se identifica el modelo logístico multinomial.−x x exp ( x ) xexp(x) x
fuente
Softmax tiene dos componentes:
Transforma los componentes a e ^ x. Esto permite que la red neuronal funcione con probabilidades logarítmicas, en lugar de probabilidades ordinarias. Esto convierte la operación común de multiplicar probabilidades en suma, que es mucho más natural para la estructura de redes neuronales basada en álgebra lineal.
Normalice su suma a 1, ya que esa es la probabilidad total que necesitamos.
Una consecuencia importante de esto es que el teorema de Bayes es muy natural para dicha red, ya que es solo la multiplicación de probabilidades normalizadas por el denominador.
El caso trivial de una red de una sola capa con activación softmax es equivalente a la regresión logística.
El caso especial de softmax de dos componentes es equivalente a la activación sigmoidea, que es popular cuando solo hay dos clases. En la clasificación de clases múltiples, softmax se usa si las clases son mutuamente excluyentes y se usa sigmoide por componentes si son independientes.
fuente