Sesgo de regresión de Softmax y probabilidades previas para clases desiguales

8

Estoy usando la regresión de Softmax para un problema de clasificación de varias clases. No tengo iguales probabilidades previas para cada una de las clases.

Sé por Regresión logística (regresión softmax con 2 clases) que las probabilidades previas de las clases se agregan implícitamente al sesgo ( ).log(p0/p1)

Por lo general, lo que hago es eliminar manualmente este término del sesgo.

Mi pregunta es, ¿cuál es el término correspondiente en el sesgo de regresión softmax?

Gracias.

Corrió
fuente

Respuestas:

2

Hasta donde yo sé, la justificación para la inicialización del sesgo softmax es un poco ondulada. Recordar la regresión de softmax es la estimación de probabilidad máxima (log) para , siendo el modelo el siguiente: Con la inicialización de sesgo, nuestra intención es encontrar un buen valor con el que comience alto. Bajo el supuesto de que inicializamos con pequeños valores cercanos a 0 y queW,b

yCat(σ(Wx+b));σi(z)=expzijexpzj.
bp(x,y|W,b)p(y|W,b,x)Wy es una etiqueta en , entonces: Sumando las probabilidades de registro para todos los ejemplos supuestamente independientes , a una buena inicialización para minimizaría la probabilidad total aproximada de registro de datos: El gradiente de wrt es , con el vector de conteos de cada clase. La función anterior también es cóncava,[K]Wx0
logp(y|W,b,x)=k=1K1y=klogσk(Wx+b)logσy(b)
{(xi,yi)}i=1nb
i=1nlogσyi(b)=i=1nbyinlogk=1Kexpbk
bcnσ(b)cNKVea la pregunta aquí sobre smooth max para una prueba.

Los dos hechos anteriores implican que un máximo está disponible siempre que . Esto, a su vez, sugiere una inicialización viable para el -ésimo término del sesgo es de hecho , la proporción de ejemplos etiquetados como en el conjunto de entrenamiento (también conocido como las estadísticas marginales). Es posible que vea que puede agregar cualquier constante a y lograr otro sesgo de maximización de probabilidad también; Sin embargo, a gran escala podría interponerse en el camino del aprendizaje . La relación con el sesgo logístico no es casual --- este tutorial discute la similitud.σ(b)=c/nibiblogpiibW

VF1
fuente