Hasta donde yo sé, la justificación para la inicialización del sesgo softmax es un poco ondulada. Recordar la regresión de softmax es la estimación de probabilidad máxima (log) para , siendo el modelo el siguiente:
Con la inicialización de sesgo, nuestra intención es encontrar un buen valor con el que comience alto. Bajo el supuesto de que inicializamos con pequeños valores cercanos a 0 y queW,b
y∼Cat(σ(Wx+b));σi(z)=expzi∑jexpzj.
bp(x,y|W,b)∝p(y|W,b,x)Wy es una etiqueta en , entonces:
Sumando las probabilidades de registro para todos los ejemplos supuestamente independientes , a una buena inicialización para minimizaría la probabilidad total aproximada de registro de datos:
El gradiente de wrt es , con el vector de conteos de cada clase. La función anterior también es cóncava,
[K]Wx≈0logp(y|W,b,x)=∑k=1K1y=klogσk(Wx+b)≈logσy(b)
{(xi,yi)}ni=1b∑i=1nlogσyi(b)=∑i=1nbyi−nlog∑k=1Kexpbk
bc−nσ(b)c∈NKVea la pregunta aquí sobre smooth max para una prueba.
Los dos hechos anteriores implican que un máximo está disponible siempre que . Esto, a su vez, sugiere una inicialización viable para el -ésimo término del sesgo es de hecho , la proporción de ejemplos etiquetados como en el conjunto de entrenamiento (también conocido como las estadísticas marginales). Es posible que vea que puede agregar cualquier constante a y lograr otro sesgo de maximización de probabilidad también; Sin embargo, a gran escala podría interponerse en el camino del aprendizaje . La relación con el sesgo logístico no es casual --- este tutorial discute la similitud.σ(b)=c/nibiblogpiibW