Comprobación de la normalidad de los residuos en modelos lineales generalizados

12

Este documento utiliza modelos lineales generalizados (distribuciones binomiales y de errores binomiales negativos) para analizar los datos. Pero luego, en la sección de análisis estadístico de los métodos, está esta declaración:

... y en segundo lugar modelando los datos de presencia utilizando Modelos de regresión logística y los datos de tiempo de búsqueda utilizando un Modelo lineal generalizado (GLM). Se usó una distribución binomial negativa con una función de enlace logarítmico para modelar los datos del tiempo de alimentación (Welsh et al. 1996) y la adecuación del modelo se verificó mediante el examen de los residuos (McCullagh y Nelder 1989). Las pruebas de Shapiro-Wilk o Kolmogorov-Smirnov se usaron para evaluar la normalidad dependiendo del tamaño de la muestra; los datos se transformaron logarítmicamente antes de los análisis para cumplir con la normalidad.

Si asumen distribuciones binomiales y de errores binomiales negativos, ¿entonces seguramente no deberían verificar la normalidad de los residuos?

luciano
fuente
2
Tenga en cuenta que los errores no se distribuyen binomialmente: cada respuesta se distribuye binomialmente con un parámetro de probabilidad dado por los valores predictores correspondientes, según las respuestas a una de sus otras preguntas .
Scortchi - Restablece a Monica
3
No hay nada en la regresión binomial o binomial negativa que deba ser normal. Si es la respuesta que transforman, eso puede ser muy contraproducente; arruinará el GLM.
Glen_b -Reinstate a Mónica el
1
De acuerdo con su presupuesto, no está claro qué están probando de hecho para la normalidad (¿está seguro de que son los residuos?) O para qué análisis están transformando los datos (¿está seguro de que son los GLM?).
Scortchi - Restablece a Monica
He expandido la cita un poco. ¿Podría alguien confirmar si lo que hicieron los autores del artículo fue incorrecto o correcto?
luciano
Me temo que aún no está terriblemente claro: comuníquese con los autores para obtener detalles sobre cómo llevaron a cabo el análisis si no se explica en otra parte del documento o sus referencias.
Scortchi - Restablece a Monica

Respuestas:

16

Nota: no se espera que los residuos de desviación (o Pearson) tengan una distribución normal, excepto en un modelo gaussiano. Para el caso de regresión logística, como dice @Stat, los residuos de desviación para la ésima observación están dados poriyi

riD=2|log(1π^i)|

si &yi=0

riD=2|log(π^i)|

si , donde es la probabilidad ajustada de Bernoulli. Como cada uno puede tomar solo uno de dos valores, está claro que su distribución no puede ser normal, incluso para un modelo especificado correctamente:yi=1πi^

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ plot n = 1

Pero si hay réplicas de observaciones para el ésimo patrón predictor, y la desviación residual se define para reunirlasnii

riD=sgn(yiniπ^i)2[yilogyinπ^i+(niyi)logniyini(1π^i)]

(donde es ahora el recuento de éxitos de 0 a ) y luego, a medida que la distribución de los residuos se aproxima más a la normalidad:n i n iyinini

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ plot n = 30

Las cosas son similares para Poisson o GLM binomiales negativos: para recuentos bajos pronosticados, la distribución de residuos es discreta y sesgada, pero tiende a la normalidad para recuentos más grandes bajo un modelo especificado correctamente.

No es habitual, al menos no en mi cuello del bosque, realizar una prueba formal de normalidad residual; Si las pruebas de normalidad son esencialmente inútiles cuando su modelo asume la normalidad exacta, entonces, a priori , es inútil cuando no lo hace. Sin embargo, para los modelos insaturados, los diagnósticos gráficos residuales son útiles para evaluar la presencia y la naturaleza de la falta de ajuste, tomando la normalidad con una pizca o un puñado de sal dependiendo del número de repeticiones por patrón predictor.

Scortchi - Restablece a Monica
fuente
1

Lo que hicieron es correcto! Le daré una referencia para verificar dos veces. Consulte la Sección 13.4.4 en Introducción al análisis de regresión lineal, 5a ediciónpor Douglas C. Montgomery, Elizabeth A. Peck, G. Geoffrey Vining. En particular, mire los ejemplos en la página 460, donde se ajustan a una película binomial y verifique dos veces la suposición de normalidad de los "Residuos de desviación". Como se menciona en la página 458, esto se debe a que "los residuos de desviación se comportan de manera muy similar a los residuos ordinarios en un modelo estándar de regresión lineal de teoría normal". Por lo tanto, tiene sentido si los traza en una escala de trama de probabilidad normal, así como en valores ajustados. Nuevamente, vea la página 456 de la referencia anterior. En los ejemplos que han proporcionado en la página 460 y 461, no solo para el caso binomial, sino también para el Poisson glm y el Gamma con (link = log), han verificado la normalidad de los residuos de desviación.
Para el caso binomial, la desviación residual se define como:yi=0r D i =

riD=2|ln(1πi^)|
si y si . Ahora, un poco de codificación en R para mostrarle cómo puede obtenerlo:yi=0yi=1
riD=2|ln(πi^)|
yi=1
> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 

Verifique aquí también el caso de Poisson.

Stat
fuente
2
Tu ejemplo es una elección extraña. ¿Hiciste un diagrama PP o QQ de esos residuos de desviación? Si es así, ¿qué concluyó?
Scortchi - Restablece a Monica
55
En este caso, el punto es que no tendría sentido verificar la normalidad de los residuos: claramente no están distribuidos normalmente, ni deberían estarlo. Es solo a medida que aumenta el número de observaciones para cada patrón predictor que la distribución de los residuos (un residual que se calcula por patrón predictivo) tiende a la normalidad. De manera similar para un modelo binomial de Poisson o negativo: los recuentos deben ser grandes para que la aproximación normal sea buena.
Scortchi - Restablece a Monica
2
La pregunta es si los residuos de los modelos lineales generalizados deberían distribuirse normalmente. Su respuesta parece ser un "sí" no calificado (aunque sus fuentes sin duda dan las calificaciones necesarias, no todos los lectores las verificarán). Luego da un ejemplo en el que no hay ninguna razón para esperar que los residuos se distribuyan normalmente, incluso si el modelo se especificó correctamente: un lector incauto supondrá que deberían serlo y que, como es evidente que no, por lo tanto, un ejemplo de detección de especificación errónea del modelo mediante el examen de los residuos (aunque usted ...
Scortchi - Restablezca a Monica
2
... no he dicho que sea). Entonces creo que la respuesta requiere mucha aclaración para ser útil.
Scortchi - Restablece a Monica
2
Los comentarios de IMO @ Scortchi son razonables aquí. Mirando lo que puedo ver del libro de Montgomery en la vista previa de Google Books , hacen la trama QQ, pero no realizan una prueba de normalidad real como se menciona en el póster original. Claro que hacer la trama QQ es razonable como prueba de diagnóstico, pero en casi todas las circunstancias realistas, incluso la desviación reside. No será normal.
Andy W