¿Interpretar gráficos de diagnóstico residuales para modelos glm?

33

Estoy buscando pautas sobre cómo interpretar gráficos residuales de modelos glm. Especialmente poisson, binomio negativo, modelos binomiales. ¿Qué podemos esperar de estas parcelas cuando los modelos son "correctos"? (por ejemplo, esperamos que la varianza crezca a medida que aumenta el valor predicho, para cuando se trata de un modelo de Poisson)

Sé que las respuestas dependen de los modelos. Cualquier referencia (o puntos generales a considerar) será útil / apreciada.

Tal Galili
fuente

Respuestas:

16

Creo que esta es una de las partes más desafiantes al hacer análisis de regresión. También lucho con la mayoría de las interpretaciones (¡en particular los diagnósticos binomiales son una locura!).

Me topé con esta publicación http://www.r-bloggers.com/model-validation-interpreting-residual-plots/ que también enlazó http://statmaster.sdu.dk/courses/st111/module04/index.html # SECTION00020000000000000000

Lo que más me ayuda es trazar los residuos versus cada parámetro predictivo incluido Y no incluido en el modelo. Esto significa también los que fueron descartados de antemano por razones multicolineales. Para estos gráficos de caja, los gráficos de dispersión condicionales y los gráficos de dispersión normales son geniales. Esto ayuda a detectar posibles errores

En "Forest Analytics with R" (Serie UseR) hay algunas buenas explicaciones sobre cómo interpretar los residuos para los modelos de efectos mixtos (y también los glms). ¡Buena lectura! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Hace algún día, pensé en un sitio web que pudiera recopilar patrones residuales que los usuarios puedan votar para que estén "bien" y "no estén bien". pero nunca encontré ese sitio web;)

Jens
fuente
8

Sugeriría los métodos descritos en:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Hay algunas ideas diferentes, pero en su mayoría se reducen a la simulación de datos donde se sabe cuál es la relación verdadera y esa relación se basa en su análisis de los datos reales. Luego, compara los diagnósticos de sus datos reales con los diagnósticos de los conjuntos de datos simulados. La vis.testfunción en el paquete TeachingDemos para R implementa una variación de 1 de las sugerencias en el documento. Lea todo el documento (no solo mi breve resumen) para comprenderlo mejor.

Greg Snow
fuente
Creo que es una buena sugerencia para ver patrones que se desvían del azar en la dispersión u otras parcelas, pero ese no es el único objetivo al ver los residuos. Con frecuencia estamos interesados ​​en desviaciones particulares de aleatorias (por ejemplo, hetereoscedasticidad, no linealidad mal especificada en el modelo, variables omitidas, valores atípicos o valores de apalancamiento altos, etc.). Las comparaciones con datos generados aleatoriamente realmente no ayudan a identificar por qué los residuos no son aleatorios ni el remedio.
Andy W
@AndyW, creo que estamos interpretando la pregunta original de manera diferente. Mi respuesta hace que el investigador comience haciéndoles saber si hay algo más que deben buscar o si la gráfica residual es razonable. Lo que debe hacer si no parece razonable es el siguiente paso y más allá de mi respuesta (aunque algunos supuestos adicionales podrían compararse utilizando un nuevo conjunto de simulaciones).
Greg Snow
5

Esta pregunta es bastante antigua, pero pensé que sería útil agregar que, desde hace poco, puede usar el paquete DHARMa R para transformar los residuos de cualquier GL (M) M en un espacio estandarizado. Una vez hecho esto, puede evaluar / evaluar visualmente problemas residuales como desviaciones de la distribución, dependencia residual de un predictor, heterocedasticidad o autocorrelación de la manera normal. Consulte la viñeta del paquete para ver ejemplos prácticos, también otras preguntas sobre CV aquí y aquí .

Florian Hartig
fuente