Estoy tratando de ajustar los datos con un GLM (regresión de Poisson) en R. Cuando graficé los residuos frente a los valores ajustados, el gráfico creó múltiples "líneas" (casi lineales con una ligera curva cóncava). ¿Qué significa esto?
library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor +
freerepa + illness + actdays + hscore + chcond1 + chcond2,
family=poisson, data=dvisits)
plot(modl)
homework
porque hablaste de una tarea.table(dvisits$doctorco)
. ¿A qué corresponden las 10 líneas curvas en su diagrama en esta tabla? Además, con más de 5000 observaciones, no se preocupe demasiado por ajustar 13 coeficientes de regresión.Respuestas:
Esta es la apariencia que espera de tal diagrama cuando la variable dependiente es discreta.
Cada traza curvilínea de puntos en el gráfico corresponde a un valor fijo de la variable dependiente . Cada caso donde tiene una predicción ; su residual, por definición, es igual a . La gráfica de versus es obviamente una línea con pendiente . En la regresión de Poisson, el eje x se muestra en una escala logarítmica: es . Las curvas ahora se doblan exponencialmente. Comoy y = k y k - y k - y Y - 1 log ( Y ) k yk y y= k y^ k - y^ k - y^ y^ - 1 Iniciar sesión( y^) k varía, estas curvas se elevan en cantidades integrales. Exponiéndolos da un conjunto de curvas casi paralelas. (Para probar esto, la gráfica se construirá explícitamente a continuación, coloreando por separado los puntos por los valores de ).y
Podemos reproducir la trama en cuestión bastante de cerca por medio de un modelo similar pero arbitrario (usando coeficientes aleatorios pequeños):
fuente
A veces, rayas como estas en gráficos residuales representan puntos con valores observados (casi) idénticos que obtienen predicciones diferentes. Mire sus valores objetivo: ¿cuántos valores únicos son? Si mi sugerencia es correcta, debe haber 9 valores únicos en su conjunto de datos de entrenamiento.
fuente
Este patrón es característico de una coincidencia incorrecta de la familia y / o enlace. Si tiene datos sobredispersados, entonces quizás debería considerar las distribuciones binomiales negativas (conteo) o gamma (continuas). También debe trazar sus residuos contra el predictor lineal transformado, no los predictores al usar modelos lineales generalizados. Para transformar el predictor de Poisson, debe tomar 2 veces la raíz cuadrada del predictor lineal y graficar sus residuos contra eso. Los residuos más aún no deben ser exclusivamente residuos de Pearson, pruebe los residuos de desviación y los residuos estudiados.
fuente