Propiedades de las regresiones logísticas.

El comportamiento que está observando es el caso "típico" en la regresión logística, pero no siempre es cierto. También tiene mucha más generalidad (ver más abajo). Es la consecuencia de la confluencia de tres hechos separados.

La elección de modelar las probabilidades de registro como una función lineal de los predictores,
El uso de la máxima verosimilitud para obtener estimaciones de los coeficientes en el modelo de regresión logística, y
La inclusión de un término de intercepción en el modelo.

Si alguno de los anteriores no está presente, entonces las probabilidades promedio estimadas no coincidirán, en general, con la proporción de las de la muestra.

Sin embargo, (casi) todo el software estadístico utiliza la estimación de máxima verosimilitud para tales modelos, por lo que, en la práctica, los ítems 1 y 2 están esencialmente siempre presentes, y el ítem 3 generalmente está presente, excepto en casos especiales.

Algunos detalles

En el típico marco de regresión logística, observamos el resultado de ensayos binomiales independientes con probabilidad . Deje ser las respuestas observadas. Entonces, la probabilidad total es por lo que la probabilidad de registro es $p_i$ $y_i$

L = \prod_{yo = 1}^{norte} {pag}_{yo}^{y_{yo}} (1 - {pag}_{yo})^{1 - y_{yo}} = \prod_{yo = 1}^{norte} Exp (y_{yo} Iniciar sesión ({pag}_{yo} / / (1 - {pag}_{yo})) + Iniciar sesión (1 - {pag}_{yo})),

$\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,$

ℓ = \sum_{yo = 1}^{norte} y_{yo} Iniciar sesión ({pag}_{yo} / / (1 - {pag}_{yo})) + \sum_{yo = 1}^{norte} Iniciar sesión (1 - {pag}_{yo}) .

$\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .$

Ahora, tenemos un vector de predictores para cada observación y del hecho 1 anterior, el modelo de regresión logística postula que para algún vector desconocido de parámetros . Nota : Al reorganizar esto, obtenemos que . $\newcommand{\x}{\mathbf x}\x_i$

Iniciar sesión \frac{{pag}_{yo}}{1 - {pag}_{yo}} = β^{T} X_{yo},

$\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,$

β

$\beta$

p_{i} = 1 / (1 + e^{- β^{T} x_{i}})

$p_i = 1/(1+e^{-\beta^T \x_i})$

El uso de la máxima probabilidad para ajustarse al modelo (Hecho 2) arroja un conjunto de ecuaciones para resolver considerando . Observe que utilizando la relación lineal supuesta entre las probabilidades de registro y los predictores. Esto significa que el MLE satisface ya que los MLE son invariables en las transformaciones, por lo tanto, en este caso. $\partial \ell / \partial \beta = 0$

\frac{\partial ℓ}{\partial β} = \sum_{yo} y_{yo} X_{yo} - \sum_{yo} \frac{X_{yo}}{1 + Exp (- β^{T} X_{yo})} = \sum_{yo} y_{yo} X_{yo} - \sum_{yo} {pag}_{yo} X_{yo},

$\frac{\partial \ell}{\partial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,$

\sum_{yo} y_{yo} X_{yo} = \sum_{yo} {\hat{pag}}_{yo} X_{yo},

$\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,$

{\hat{p}}_{i} = (1 + \exp (- {\hat{β}}^{T} x_{i}))^{- 1}

$\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$

Usando el hecho 3, si tiene un componente que siempre es 1 para cada , entonces y entonces la proporción empírica de respuestas positivas coincide con promedio de las probabilidades ajustadas. $\x_i$ $j$ $i$ $\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$

Una simulación

La inclusión de una intercepción es importante. Aquí hay un ejemplo en para demostrar que el comportamiento observado puede no ocurrir cuando no hay intercepción en el modelo. $R$

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

Caso general : como se mencionó anteriormente, la propiedad de que la respuesta media es igual a la media pronosticada promedio tiene una generalidad mucho mayor para la clase de modelos lineales generalizados ajustados por la máxima verosimilitud, usando la función de enlace canónico e incluyendo una intercepción en el modelo.

Referencias

Algunas buenas referencias para la teoría asociada son las siguientes.

A. Agresti (2002), Análisis de datos categóricos , 2ª ed., Wiley.
P. McCullagh y JA Nelder (1989), Modelos lineales generalizados , 2ª ed., Chapman & Hall. (Texto de autores originales de los métodos generales).

cardenal
fuente

+1 Esta demostración (específica para el modelo de regresión logística, sin tratar de generalizar a todos los GLM) también se da en Maddala (1983) Variables limitadas dependientes y cualitativas en econometría , págs. 25-26.

StasK

@StasK: Gracias por la referencia adicional, con la que no estoy familiarizado. Salud.

cardenal

@cardinal: No recuerdo que Agresti haya discutido esto. ¿Se discute en McCullagh y Nelder?

julio

Propiedades de las regresiones logísticas.

Respuestas: