Interpretación de la gráfica de los residuos frente a los valores ajustados de la regresión de Poisson

25

Estoy tratando de ajustar los datos con un GLM (regresión de Poisson) en R. Cuando graficé los residuos frente a los valores ajustados, el gráfico creó múltiples "líneas" (casi lineales con una ligera curva cóncava). ¿Qué significa esto?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

ingrese la descripción de la imagen aquí

jocelyn
fuente
No sé si puede cargar la trama (a veces los recién llegados no pueden), pero si no, ¿podría al menos agregar algunos datos y código R a su pregunta para que la gente pueda evaluarla?
gung - Restablece a Monica
Jocelyn, he actualizado tu publicación con la información que pones en un comentario. También etiqueté esto homeworkporque hablaste de una tarea.
chl
intente plot (jitter (mod1)) para ver si el gráfico es un poco más legible. ¿Por qué no define los residuos para nosotros y nos da su mejor suposición al interpretar el gráfico usted mismo?
Michael Bishop
1
A partir de la pregunta, voy a suponer que comprende la distribución de Poisson y el registro de Pois, y lo que le dice una gráfica de los residuos frente a los valores ajustados (actualice si eso está mal), por lo tanto, se está preguntando acerca de la apariencia extraña de los puntos en la trama B / c esto es tarea, no respondemos como nuestra política general, pero damos pistas. Me doy cuenta de que tiene muchas covariables, me pregunto si tiene 1 covariables binarias continuas y muchas.
gung - Restablece a Monica
1
Dos seguimientos del comentario de Gung. Primero, inténtalo table(dvisits$doctorco). ¿A qué corresponden las 10 líneas curvas en su diagrama en esta tabla? Además, con más de 5000 observaciones, no se preocupe demasiado por ajustar 13 coeficientes de regresión.
invitado

Respuestas:

29

Esta es la apariencia que espera de tal diagrama cuando la variable dependiente es discreta.

Cada traza curvilínea de puntos en el gráfico corresponde a un valor fijo de la variable dependiente . Cada caso donde tiene una predicción ; su residual, por definición, es igual a . La gráfica de versus es obviamente una línea con pendiente . En la regresión de Poisson, el eje x se muestra en una escala logarítmica: es . Las curvas ahora se doblan exponencialmente. Comoy y = k y k - y k - y Y - 1 log ( Y ) k ykyy=ky^ky^ky^y^1Iniciar sesión(y^)kvaría, estas curvas se elevan en cantidades integrales. Exponiéndolos da un conjunto de curvas casi paralelas. (Para probar esto, la gráfica se construirá explícitamente a continuación, coloreando por separado los puntos por los valores de ).y

Podemos reproducir la trama en cuestión bastante de cerca por medio de un modelo similar pero arbitrario (usando coeficientes aleatorios pequeños):

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

Residuales vs ajustados

whuber
fuente
66
(+1) El color muestra mucho lo que está sucediendo.
cardenal
Entonces, ¿es preocupante la trama anterior? Los textos (Modelado estadístico para investigadores biomédicos: una introducción simple al análisis de datos complejos, Dupont, 2002, p. 316, por ejemplo) indican que la gráfica ajustada vs. residual debe estar centrada alrededor de la línea residual cero, y cualquier abanico (si es crudo) residuales) o no (si hay desviación, por ejemplo). Con un rango limitado de recuentos en la variable de resultado, obtienes estas bandas y, como en el gráfico anterior, no están centradas en la línea en y = 0. ¿Cómo sabemos el gráfico residual del OP (o el gráfico de ejemplo hecho en esta respuesta) indica que el modelo se ajusta bien a los datos?
Meg
1
@Meg Ese consejo no se aplica directamente a los residuos de un GLM. Tenga en cuenta que el modelo utilizado para ilustrar esta respuesta se sabe que es correcto porque es el que se utiliza para generar los datos.
whuber
1/2: Gracias @whuber. Entiendo que para esta respuesta se sabe que el modelo es correcto ya que los datos se simularon a partir de una distribución dada, pero en la práctica se desconoce (como en la publicación del OP). Además, lo que escribí sobre los residuos se aplica a la regresión de POI (no todos los GLM, no, pero este): la referencia que di fue hablar específicamente de la regresión de POI. Solo he visto textos que muestran residuos de PDI estandarizados (Pearson o desviación, por ejemplo) centrados en y = 0, por lo que no estoy seguro de lo que debería estar buscando, porque para este modelo (que obviamente es correcto), la trama se ve nada como eso.
Meg
2/2: ¿Tiene alguna referencia que discuta los residuos de PDI más a fondo por casualidad?
Meg
8

A veces, rayas como estas en gráficos residuales representan puntos con valores observados (casi) idénticos que obtienen predicciones diferentes. Mire sus valores objetivo: ¿cuántos valores únicos son? Si mi sugerencia es correcta, debe haber 9 valores únicos en su conjunto de datos de entrenamiento.

Boris Gorelik
fuente
1
0 0,1,...,9 9
-3

Este patrón es característico de una coincidencia incorrecta de la familia y / o enlace. Si tiene datos sobredispersados, entonces quizás debería considerar las distribuciones binomiales negativas (conteo) o gamma (continuas). También debe trazar sus residuos contra el predictor lineal transformado, no los predictores al usar modelos lineales generalizados. Para transformar el predictor de Poisson, debe tomar 2 veces la raíz cuadrada del predictor lineal y graficar sus residuos contra eso. Los residuos más aún no deben ser exclusivamente residuos de Pearson, pruebe los residuos de desviación y los residuos estudiados.

Ryan Barnhart
fuente
3
¿Por qué 2 veces la raíz cuadrada, cuando el enlace canónico de la familia Poisson en un glm es log? ¿No debería ser exp () del predictor lineal? Pero no veo cuál es el problema con graficar los residuos contra el predictor lineal en sí, lo que creo que es lo que se está haciendo aquí, tal vez podría ampliarlo.
Peter Ellis
¿Te importaría explicar qué aspecto del "patrón" está llamando tu atención sobre una posible especificación errónea del modelo, Ryan? Parece ser algo sutil, pero es potencialmente una idea importante.
whuber