Actualmente estoy luchando por encontrar el modelo correcto para datos de recuento difíciles (variable dependiente). He probado varios modelos diferentes (los modelos de efectos mixtos son necesarios para mi tipo de datos) como lmer
y lme4
(con una transformación logarítmica), así como modelos de efectos mixtos lineales generalizados con varias familias, como el binomio gaussiano o negativo.
Sin embargo, no estoy seguro de cómo diagnosticar correctamente los ajustes resultantes. Encontré muchas opiniones diferentes sobre ese tema en la Web. Creo que el diagnóstico de regresión lineal (mixta) es bastante sencillo. Puede continuar y analizar los residuos (normalidad), así como estudiar la heterocedasticidad trazando los valores ajustados en comparación con los residuos.
Sin embargo, ¿cómo haces eso correctamente para la versión generalizada? Centrémonos en una regresión binomial negativa (mixta) por ahora. He visto declaraciones bastante opuestas con respecto a los residuos aquí:
Al verificar la normalidad de los residuos en los modelos lineales generalizados , en la primera respuesta se señala que los residuos simples no se distribuyen normalmente para un GLM; Creo que esto está claro. Sin embargo, se señala que tampoco se supone que los residuos de Pearson y de desviación sean normales. Sin embargo, la segunda respuesta establece que los residuos de desviación deben distribuirse normalmente (combinados con una referencia).
Sin embargo, los residuales de desviación que deberían distribuirse normalmente se insinúan en la documentación de ? Glm.diag.plots (del
boot
paquete de R ).En esta publicación de blog , el autor primero estudió la normalidad de lo que supongo que son residuos de Pearson para un modelo de regresión de efectos mixtos NB. Como era de esperar (en mi sincera opinión), los residuos no mostraron ser normales y el autor asumió que este modelo no encajaba bien. Sin embargo, como se indica en los comentarios, los residuos deben distribuirse de acuerdo con una distribución binomial negativa. En mi opinión, esto se acerca más a la verdad, ya que los residuos de GLM pueden tener otras distribuciones que la normal. ¿Es esto correcto? ¿Cómo verificar cosas como la heterocedasticidad aquí?
El último punto (graficando los residuos contra los cuantiles de la distribución estimada) se enfatiza en Ben y Yohai (2004) . Actualmente, este parece ser el camino a seguir para mí.
En pocas palabras: ¿Cómo estudias adecuadamente los ajustes del modelo de los modelos de regresión lineal (mixta) generalizados específicamente con un enfoque en los residuos?
glm.diag.plots
dice que es para la desviación residual de navaja (sospecho que la distinción es importante). Además, supongo que tiene datos de conteo ; es posible que desee centrarse en ese hecho. Por ejemplo, se supone que los recuentos (en cierto sentido) son heterocedásticos. Las gráficas de diagnóstico para la regresión de conteo deberían ser útiles para usted (aunque no abordan el aspecto de efectos mixtos).Respuestas:
Esta respuesta no se basa en mi conocimiento, sino que cita lo que Bolker et al. (2009) escribió en un artículo influyente en la revista Trends in Ecology and Evolution . Dado que el artículo no es de acceso abierto (aunque buscarlo en Google Scholar puede ser exitoso, pensé en citar pasajes importantes que pueden ser útiles para abordar partes de las preguntas. De nuevo, no es lo que se me ocurrió, pero creo representa la mejor información condensada sobre GLMM (incluidos los diagnósticos) en un estilo de escritura muy sencillo y fácil de entender. Si de alguna manera esta respuesta no es adecuada por cualquier razón, simplemente la eliminaré. Cosas que encuentro útil con respecto a las preguntas sobre diagnósticos se destacan ennegrita .
Page 127:
Página 129, casilla 1:
Página 133, recuadro 4:
Las parcelas de residuos deben usarse para evaluar la dispersión excesiva y las variaciones transformadas deben ser homogéneas en todas las categorías. En ninguna parte del artículo se mencionó que se supone que los residuos se distribuyen normalmente.
Creo que la razón por la que hay declaraciones contrastantes refleja que los GLMM (páginas 127-128) ...
Y aquí hay algunos ejemplos completos que funcionan con GLMM, incluidos los diagnósticos.
Me doy cuenta de que esta respuesta es más como un comentario y debe tratarse como tal. Pero la sección de comentarios no me permite agregar un comentario tan largo. Además, dado que creo que este documento es valioso para esta discusión (pero desafortunadamente detrás de un muro de pago), pensé que sería útil citar pasajes importantes aquí.
Papeles citados:
[15] - GP Quinn, MJ Keough (2002): Diseño experimental y análisis de datos para biólogos, Cambridge University Press.
[16] - MJ Crawley (2002): Computación estadística: una introducción al análisis de datos utilizando S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modelos de efectos mixtos en S y S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): información de Akaike condicional para modelos de efectos mixtos. Biometrika, 92, pp. 351-370.
[50] - A. Gelman, J. Hill (2006): Análisis de datos utilizando regresión y modelos multinivel / jerárquicos, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Una cartilla de estadísticas ecológicas, Sinauer Associates.
[65] - FJ Harrell (2001): Estrategias de modelado de regresión, Springer.
[66] - JK Lindsey (1997): Aplicación de modelos lineales generalizados, Springer.
[67] - W. Venables, BD Ripley (2002): Modern Applied Statistics con S, Springer.
fuente
Esta es una pregunta antigua, pero pensé que sería útil agregar que la opción 4 sugerida por el OP ahora está disponible en el paquete DHARMa R (disponible en CRAN, ver aquí ).
El paquete hace que las verificaciones residuales visuales sugeridas por la respuesta aceptada sean mucho más confiables / fáciles.
De la descripción del paquete:
fuente