Propiedades de las regresiones logísticas.

17

Estamos trabajando con algunas regresiones logísticas y nos hemos dado cuenta de que la probabilidad estimada promedio siempre es igual a la proporción de unos en la muestra; es decir, el promedio de los valores ajustados es igual al promedio de la muestra.

¿Alguien puede explicarme la razón o darme una referencia para encontrar esta demostración?

Gabi Foix
fuente
2
La razón de esto es que la regresión logística está tratando de lograr exactamente eso: modelar la distribución de datos, incluidas las probabilidades anteriores ("promedios"). ¿Es este comportamiento no deseado?
bayerj
1
@bayer La no linealidad de la función de enlace indica que este fenómeno es más profundo que su caracterización. Realmente hay algo que demostrar aquí.
Whuber
Esta propiedad a veces se llama calibración en grande cuando se usa la regresión logística para estimar el riesgo.
julio

Respuestas:

26

El comportamiento que está observando es el caso "típico" en la regresión logística, pero no siempre es cierto. También tiene mucha más generalidad (ver más abajo). Es la consecuencia de la confluencia de tres hechos separados.

  1. La elección de modelar las probabilidades de registro como una función lineal de los predictores,
  2. El uso de la máxima verosimilitud para obtener estimaciones de los coeficientes en el modelo de regresión logística, y
  3. La inclusión de un término de intercepción en el modelo.

Si alguno de los anteriores no está presente, entonces las probabilidades promedio estimadas no coincidirán, en general, con la proporción de las de la muestra.

Sin embargo, (casi) todo el software estadístico utiliza la estimación de máxima verosimilitud para tales modelos, por lo que, en la práctica, los ítems 1 y 2 están esencialmente siempre presentes, y el ítem 3 generalmente está presente, excepto en casos especiales.

Algunos detalles

En el típico marco de regresión logística, observamos el resultado de ensayos binomiales independientes con probabilidad . Deje ser las respuestas observadas. Entonces, la probabilidad total es por lo que la probabilidad de registro es y i L = n i = 1 p y i i ( 1 - p i ) 1 - y i = n i = 1 exp ( y i log ( p i / ( 1 - p i ) ) + log ( 1 - p i ) )pagyoyyo

L=yo=1nortepagyoyyo(1-pagyo)1-yyo=yo=1norteExp(yyoIniciar sesión(pagyo/ /(1-pagyo))+Iniciar sesión(1-pagyo)),
=yo=1norteyyoIniciar sesión(pagyo/ /(1-pagyo))+yo=1norteIniciar sesión(1-pagyo).

Ahora, tenemos un vector de predictores para cada observación y del hecho 1 anterior, el modelo de regresión logística postula que para algún vector desconocido de parámetros . Nota : Al reorganizar esto, obtenemos que .Xyo

Iniciar sesiónpagyo1-pagyo=βTXyo,
βpagyo=1/ /(1+mi-βTXyo)

El uso de la máxima probabilidad para ajustarse al modelo (Hecho 2) arroja un conjunto de ecuaciones para resolver considerando . Observe que utilizando la relación lineal supuesta entre las probabilidades de registro y los predictores. Esto significa que el MLE satisface ya que los MLE son invariables en las transformaciones, por lo tanto, en este caso./ /β=0 0

β=yoyyoXyo-yoXyo1+Exp(-βTXyo)=yoyyoXyo-yopagyoXyo,
yoyyoXyo=yopag^yoXyo,
pag^yo=(1+Exp(-β^TXyo))-1

Usando el hecho 3, si tiene un componente que siempre es 1 para cada , entonces y entonces la proporción empírica de respuestas positivas coincide con promedio de las probabilidades ajustadas.XyojyoyoyyoXyoj=yoyyo=yopag^yo

Una simulación

La inclusión de una intercepción es importante. Aquí hay un ejemplo en para demostrar que el comportamiento observado puede no ocurrir cuando no hay intercepción en el modelo.R

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Caso general : como se mencionó anteriormente, la propiedad de que la respuesta media es igual a la media pronosticada promedio tiene una generalidad mucho mayor para la clase de modelos lineales generalizados ajustados por la máxima verosimilitud, usando la función de enlace canónico e incluyendo una intercepción en el modelo.

Referencias

Algunas buenas referencias para la teoría asociada son las siguientes.

  1. A. Agresti (2002), Análisis de datos categóricos , 2ª ed., Wiley.
  2. P. McCullagh y JA Nelder (1989), Modelos lineales generalizados , 2ª ed., Chapman & Hall. (Texto de autores originales de los métodos generales).
cardenal
fuente
44
+1 Esta demostración (específica para el modelo de regresión logística, sin tratar de generalizar a todos los GLM) también se da en Maddala (1983) Variables limitadas dependientes y cualitativas en econometría , págs. 25-26.
StasK
@StasK: Gracias por la referencia adicional, con la que no estoy familiarizado. Salud.
cardenal
@cardinal: No recuerdo que Agresti haya discutido esto. ¿Se discute en McCullagh y Nelder?
julio