Estamos trabajando con algunas regresiones logísticas y nos hemos dado cuenta de que la probabilidad estimada promedio siempre es igual a la proporción de unos en la muestra; es decir, el promedio de los valores ajustados es igual al promedio de la muestra.
¿Alguien puede explicarme la razón o darme una referencia para encontrar esta demostración?
Respuestas:
El comportamiento que está observando es el caso "típico" en la regresión logística, pero no siempre es cierto. También tiene mucha más generalidad (ver más abajo). Es la consecuencia de la confluencia de tres hechos separados.
Si alguno de los anteriores no está presente, entonces las probabilidades promedio estimadas no coincidirán, en general, con la proporción de las de la muestra.
Sin embargo, (casi) todo el software estadístico utiliza la estimación de máxima verosimilitud para tales modelos, por lo que, en la práctica, los ítems 1 y 2 están esencialmente siempre presentes, y el ítem 3 generalmente está presente, excepto en casos especiales.
Algunos detalles
En el típico marco de regresión logística, observamos el resultado de ensayos binomiales independientes con probabilidad . Deje ser las respuestas observadas. Entonces, la probabilidad total es por lo que la probabilidad de registro es y i L = n ∏ i = 1 p y i i ( 1 - p i ) 1 - y i = n ∏ i = 1 exp ( y i log ( p i / ( 1 - p i ) ) + log ( 1 - p i ) )pagyo yyo
Ahora, tenemos un vector de predictores para cada observación y del hecho 1 anterior, el modelo de regresión logística postula que para algún vector desconocido de parámetros . Nota : Al reorganizar esto, obtenemos que .Xyo
El uso de la máxima probabilidad para ajustarse al modelo (Hecho 2) arroja un conjunto de ecuaciones para resolver considerando . Observe que utilizando la relación lineal supuesta entre las probabilidades de registro y los predictores. Esto significa que el MLE satisface ya que los MLE son invariables en las transformaciones, por lo tanto, en este caso.∂ℓ / ∂β= 0
Usando el hecho 3, si tiene un componente que siempre es 1 para cada , entonces y entonces la proporción empírica de respuestas positivas coincide con promedio de las probabilidades ajustadas.Xyo j yo ∑yoyyoXyo j= ∑yoyyo= ∑yopag^yo
Una simulación
La inclusión de una intercepción es importante. Aquí hay un ejemplo en para demostrar que el comportamiento observado puede no ocurrir cuando no hay intercepción en el modelo.R
Caso general : como se mencionó anteriormente, la propiedad de que la respuesta media es igual a la media pronosticada promedio tiene una generalidad mucho mayor para la clase de modelos lineales generalizados ajustados por la máxima verosimilitud, usando la función de enlace canónico e incluyendo una intercepción en el modelo.
Referencias
Algunas buenas referencias para la teoría asociada son las siguientes.
fuente