¿Cómo se deriva la unidad softmax y cuál es la implicación?

8

Estoy tratando de entender por qué la función softmax se define como tal:

ezjΣk=1Kezk=σ(z)

Entiendo cómo esto normaliza los datos y se asigna correctamente a algún rango (0, 1), pero la diferencia entre las probabilidades de peso varía exponencialmente en lugar de linealmente. ¿Hay alguna razón por la que queremos este comportamiento?

Además, esta ecuación parece bastante arbitraria y creo que una gran familia de ecuaciones podría satisfacer nuestros requisitos. No he visto ninguna derivación en línea, así que supongo que es simplemente una definición. ¿Por qué no elegir cualquier otra definición que satisfaga los mismos requisitos?

Dr.Knowitall
fuente
2
Es posible que desee Google regresión logística y regresión multinomial
seanv507
Además, busque en este sitio!
kjetil b halvorsen

Respuestas:

5

La distribución categórica es la distribución mínima supuesta sobre el soporte de "un conjunto finito de resultados mutuamente excluyentes" dada la estadística suficiente de "qué resultado sucedió". En otras palabras, usar cualquier otra distribución sería una suposición adicional. Sin ningún conocimiento previo, debe asumir una distribución categórica para este soporte y una estadística suficiente. Es una familia exponencial. (Todas las distribuciones supuestas mínimas para un soporte dado y estadística suficiente son familias exponenciales).

La forma correcta de combinar dos creencias basadas en información independiente es el producto puntual de las densidades, asegurándose de no contar dos veces la información previa que se encuentra en ambas creencias. Para una familia exponencial, esta combinación es la suma de parámetros naturales.

Los parámetros de expectativa son los valores esperados de Xk dónde Xk son la cantidad de veces que observaste el resultado k. Esta es la parametrización correcta para convertir un conjunto de observaciones a una distribución de máxima verosimilitud. Simplemente promedia en este espacio. Esto es lo que quieres cuando modelas observaciones.

La función logística multinomial es la conversión de parámetros naturales a parámetros de expectativa de la distribución categórica. Puede derivar esta conversión como el gradiente del log-normalizador con respecto a los parámetros naturales.

En resumen, la función logística multinomial se cae de tres supuestos: un soporte, una estadística suficiente y un modelo cuya creencia es una combinación de datos independientes.

Neil G
fuente
2

Sé que esta es una publicación tardía, pero creo que todavía sería valioso proporcionar alguna justificación para aquellos que aterrizan aquí.

No estás completamente equivocado. Es arbitrario hasta cierto punto, pero quizás arbitrario es la palabra incorrecta. Es más como una elección de diseño. Dejame explicar.

Resulta que Softmax es en realidad la generalización de la función Sigmoide, que es una unidad de salida de Bernoulli (salida 0 o 1):

[1+Exp(-z)]-1

Pero de dónde viene la función Sigmoide, puede preguntar.

Bueno, resulta que muchas distribuciones de probabilidad diferentes, incluidas la distribución de Bernoulli, Poisson, gaussiana, etc., siguen algo llamado Modelo Lineal Generalizado (GLM). Es decir, se pueden expresar en términos de:

PAGS(y;η)=si(y)Exp[ηTT(y)-una(η)]

No cubriré cuáles son todos estos parámetros, pero ciertamente puede investigar esto.

Observe el siguiente ejemplo de cómo una distribución de Bernoulli está en la familia GLM:

PAGS(y=1)=ϕPAGS(y=0 0)=1-ϕPAGS(y)=ϕy(1-ϕ)1-y=Exp(yIniciar sesión(ϕ)+(1-y)Iniciar sesión(1-ϕ))=Exp(yIniciar sesión(ϕ)+Iniciar sesión(1-ϕ)-yIniciar sesión(1-ϕ))=Exp(yIniciar sesión(ϕ1-ϕ)+Iniciar sesión(1-ϕ))

Puedes ver que en este caso,

si(y)=1T(y)=yη=Iniciar sesión(ϕ1-ϕ)una(η)=-Iniciar sesión(1-ϕ)

Note lo que sucede cuando resolvemos ϕ en términos de η:

η=Iniciar sesión(ϕ1-ϕ)miη=ϕ1-ϕmi-η=1-ϕϕ=1ϕ-1mi-η+1=1ϕϕ=[Exp(-η)+1]-1

Entonces para conseguir ϕ=PAGS(y=1), tomamos el sigmoide de η. La elección del diseño entra en juego cuando asumimos queη=wTX, dónde w son sus pesos y X son sus datos, los cuales suponemos que son Rnorte. Al hacer esta suposición, podemos encajarw para aproximar ϕ.

Si tuviera que pasar por este mismo proceso para una distribución Multinoulli, terminaría derivando la función softmax.

samuel schreiber
fuente