¿Por qué la regresión logística produce modelos bien calibrados?

13

Entiendo que una de las razones por las que la regresión logística se usa con frecuencia para predecir las tasas de clics en la web es que produce modelos bien calibrados. ¿Hay una buena explicación matemática para esto?

lsankar4033
fuente
2
regresión logística hecha para predecir probabilidades -> que conducen a predicciones calibradas si no sobreajustadas. mientras que la mayoría de los modelos de aprendizaje automático no predicen las probabilidades, sino más bien una clase, y existe cierta contorsión a las pseudoprobabilidades derivadas de estas predicciones -> por lo tanto, tenga en cuenta que está bien calibrado
charles
2
Debería haber aclarado la pregunta, pero mi pregunta era más sobre por qué es el caso de que LR es tan útil para predecir probabilidades.
lsankar4033
Vale la pena señalar que simplemente puede ajustar una regresión logística a la salida de un clasificador mal calibrado para obtener un modelo calibrado. Esto se llama Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Respuestas:

14

Si.

El vector de probabilidad pronosticado de la regresión logística satisface la ecuación matricialp

Xt(py)=0

XyX

Especializada en la columna de intercepción (que es una fila en la matriz transpuesta), la ecuación lineal asociada es

i(piyi)=0

entonces el promedio general de probabilidad pronosticada es igual al promedio de la respuesta.

xij

ixij(piyi)=ixij=1(piyi)=0

xij=1

Matthew Drury
fuente
1
p1/(1+exp(x))
1
Sí, p es de esa forma. La primera ecuación proviene de establecer la derivada de la función de pérdida a cero.
Matthew Drury
1
Esto aborda solo la calibración en grande, que no es lo que queremos: calibración en pequeño.
Frank Harrell
1
@FrankHarrell ¿Quieres elaborar? No he escuchado esos términos antes.
Matthew Drury
3
Hay una larga historia en la literatura de pronósticos de probabilidad que data del Servicio Meteorológico de EE. UU. 1950, ahí fue donde se usó por primera vez la puntuación Brier. Calibración en pequeño significa que si se observan los riesgos pronosticados de 0.01, 0.02, ..., 0.99, cada uno de estos es exacto, es decir, para todas las veces en que el riesgo predicho fue 0.4, el resultado ocurrió aproximadamente 0.4 el tiempo. Yo llamo "calibración en el pequeño" el siguiente paso: para los hombres en los que la predicción fue 0.4 fue el resultado presente 0.4 del tiempo, luego para las mujeres.
Frank Harrell
2

Creo que puedo proporcionarle una explicación fácil de entender de la siguiente manera:


J(θ)=1mi=1m[y(i)log(hθ(x(i)))+(1y(i))log(1hθ(x(i)))]

my(i)hθ(x(i))11+exp[αjθjxj(i)]α

θj

J(θ)θj=1mi=1m[hθ(x(i))y(i)]xj(i)


i=1mhθ(x(i))xj(i)=i=1my(i)xj(i)

Eso significa que si el modelo está completamente entrenado, las probabilidades predichas que obtenemos para el conjunto de entrenamiento se extienden de manera que para cada característica la suma de los valores ponderados (todos) de esa característica es igual a la suma de los valores de esa característica de las muestras positivas.

αx0αθ0

i=1mhθ(x(i))x0(i)=i=1my(i)x0(i)
i=1mhθ(x(i))=i=1my(i)
hθ(x(i))
i=1mp(i)=i=1my(i)

Obviamente podemos ver que la regresión logística está bien calibrada.

Referencia: modelos logarítmicos lineales y campos aleatorios condicionales de Charles Elkan

Lerner Zhang
fuente