En la página 232 de "Un compañero de R para la regresión aplicada", Fox y Weisberg observan
Solo la familia gaussiana tiene una varianza constante, y en todos los demás GLM la varianza condicional de y en depende de μ ( x )
Anteriormente, observaron que la varianza condicional del Poisson es y la del binomio es μ ( 1 - μ ) .
Para el gaussiano, esta es una suposición familiar y a menudo comprobada (homocedasticidad). De manera similar, a menudo veo la varianza condicional del Poisson discutido como una suposición de la regresión de Poisson, junto con remedios para casos en los que se viola (por ejemplo, binomio negativo, cero inflado, etc.). Sin embargo, nunca veo la varianza condicional para el binomio discutido como una suposición en la regresión logística. Un poco de Google no encontró ninguna mención de ello.
¿Que me estoy perdiendo aqui?
EDITAR posterior al comentario de @whuber:
Como sugerí, estoy mirando Hosmer & Lemeshow. Es interesante y creo que muestra por qué yo (y quizás otros) estamos confundidos. Por ejemplo, la palabra "suposición" no está en el índice del libro. Además, tenemos esto (p. 175)
En la regresión logística, debemos confiar principalmente en la evaluación visual, ya que la distribución de los diagnósticos bajo la hipótesis de que el modelo se ajusta solo se conoce en ciertos entornos limitados.
Muestran bastantes gráficos, pero se concentran en gráficos de dispersión de varios residuos frente a la probabilidad estimada. Estas gráficas (incluso para un buen modelo, no tienen el patrón "blobby" característico de las gráficas similares en la regresión de OLS, por lo que son más difíciles de juzgar. Además, no muestran nada parecido a las gráficas cuantiles.
En R, plot.lm ofrece un buen conjunto predeterminado de gráficos para evaluar modelos; No conozco un equivalente para la regresión logística, aunque puede estar en algún paquete. Esto puede deberse a que se necesitarían diferentes gráficos para cada tipo de modelo. SAS ofrece algunas parcelas en PROC LOGISTIC.
¡Esto ciertamente parece ser un área de confusión potencial!
fuente
Respuestas:
El paquete DHARMa R resuelve este problema simulando desde el modelo ajustado para transformar los residuos de cualquier GL (M) M en un espacio estandarizado. Una vez hecho esto, se pueden aplicar todos los métodos regulares para evaluar visualmente y formalmente los problemas residuales (por ejemplo, gráficos qq, sobredispersión, heterocedasticidad, autocorrelación). Consulte la viñeta del paquete para ver ejemplos prácticos.
Con respecto al comentario de @Otto_K: si la sobredispersión homogénea es el único problema, probablemente sea más simple usar un efecto aleatorio a nivel de observación, que se puede implementar con un GLMM binomial estándar. Sin embargo, creo que @PeterFlom también estaba preocupado por la heterocedasticidad, es decir, un cambio en el parámetro de dispersión con algunas predicciones o predicciones del modelo. Esto no será recogido / corregido por los controles / correcciones de sobredispersión estándar, pero puede verlo en los gráficos residuales de DHARMa. Para corregirlo, modelar la dispersión en función de otra cosa en JAGS o STAN es probablemente la única forma en este momento.
fuente
El tema que explica con frecuencia se llama sobredispersión . En mi trabajo vi una posible solución a este tema:
Utilizando un enfoque bayesiano y estimando una distribución beta-binomial. Esto tiene la gran ventaja de que otras distribuciones (inducidas por otros antecedentes) tienen una solución de forma cerrada.
Referencias
fuente