Esta pregunta sigue en stats.stackexchange.com/q/233658
El modelo de regresión logística para las clases {0, 1} es
Claramente, esas probabilidades suman 1. Al establecer también podríamos definir la regresión logística como
Sin embargo, la segunda definición rara vez se usa porque los coeficientes y no son únicos. En otras palabras, el modelo no es identificable, al igual que la regresión lineal con dos variables que son múltiplos entre sí.
Pregunta
En el aprendizaje automático, ¿por qué el modelo de regresión softmax para las clases {0, 1, ..., K - 1} generalmente se define de la siguiente manera?
¿No debería ser en cambio
Nota al margen: en estadística, la regresión softmax se denomina regresión logística multinomial y las clases son {1, ..., K}. Encuentro esto un poco incómodo porque cuando K = 2, las clases son {1, 2} en lugar de {0, 1}, por lo que no es exactamente una generalización de la regresión logística.
Respuestas:
Sí, tiene razón en que hay una falta de identificabilidad a menos que uno de los vectores coeficientes sea fijo. Hay algunas razones que no mencionan esto. No puedo hablar de por qué omiten este detalle, pero aquí hay una explicación de qué es y cómo solucionarlo.
Descripción
Digamos que tiene observaciones y predictores , donde va de a denota el número / índice de observación. Necesitará estimar los vectores de coeficiente dimensional .yi∈{0,1,2,…,K−1} x⊺i∈Rp i 1 n K p β0,β1,…,βK−1
La función softmax se define como que tiene buenas propiedades como la diferenciabilidad, suma , etc.softmax(z)i=exp(zi)∑K−1l=0exp(zl), 1
La regresión logística multinomial utiliza la función softmax para cada observación en el vectori ⎡⎣⎢⎢⎢⎢⎢x⊺iβ0x⊺iβ1⋮x⊺iβK−1,⎤⎦⎥⎥⎥⎥⎥
lo que significa⎡⎣⎢⎢⎢⎢⎢P(yi=0)P(yi=1)⋮P(yi=K−1)⎤⎦⎥⎥⎥⎥⎥=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢exp[x⊺iβ0]∑K−1k=0exp[x⊺iβk]exp[x⊺iβ1]∑K−1k=0exp[x⊺iβk]⋮exp[x⊺iβK−1]∑K−1k=0exp[x⊺iβk]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.
El problema
Sin embargo, la probabilidad no es identificable porque múltiples colecciones de parámetros darán la misma probabilidad. Por ejemplo, cambiar todos los vectores de coeficientes por el mismo vector producirá la misma probabilidad. Esto se puede ver si multiplica cada numerador y denominador de cada elemento del vector por una constante , nada cambia:c exp[−x⊺ic]
Arreglando lo
La forma de solucionar esto es restringir los parámetros. Arreglar uno de ellos conducirá a la identificación, porque ya no se permitirá cambiarlos.
Hay dos opciones comunes:
Ignorándolo
Sin embargo, a veces la restricción no es necesaria. Por ejemplo, si estaba interesado en formar un intervalo de confianza para la cantidad , entonces esto es lo mismo que , así que inferencia en relativamente cantidades realmente no importan. Además, si su tarea es predicción en lugar de inferencia de parámetros, sus predicciones no se verán afectadas si se estiman todos los vectores de coeficientes (sin restringir uno).β01−β21 β01−c−[β21−c]
fuente