Tengo una pregunta sobre los modelos lineales generalizados (GLM). Mi variable dependiente (DV) es continua y no normal. Así que log lo transformé (todavía no es normal pero lo mejoré).
Quiero relacionar el DV con dos variables categóricas y una covariable continua. Para esto quiero realizar un GLM (estoy usando SPSS) pero no estoy seguro de cómo decidir sobre la distribución y la función para elegir.
He realizado la prueba no paramétrica de Levene y tengo homogeneidad de las variaciones, por lo que me inclino a usar la distribución normal. He leído que para la regresión lineal los datos no necesitan ser normales, los residuales sí. Entonces, imprimí los residuos estandarizados de Pearson y los valores pronosticados para el predictor lineal de cada GLM individualmente (función de identidad normal de GLM y función de registro normal). He realizado pruebas de normalidad (histograma y Shapiro-Wilk) y tracé los residuos contra los valores pronosticados (para verificar la aleatoriedad y la varianza) para ambos individualmente. Los residuos de la función de identidad no son normales, pero los residuos de la función de registro son normales. Me inclino a elegir normal con la función de enlace de registro porque los residuos de Pearson se distribuyen normalmente.
Entonces mis preguntas son:
- ¿Puedo usar la distribución normal GLM con la función LOG link en un DV que ya ha sido transformado?
- ¿La prueba de homogeneidad de varianza es suficiente para justificar el uso de la distribución normal?
- ¿Es correcto el procedimiento de verificación residual para justificar la elección del modelo de función de enlace?
Imagen de la distribución DV a la izquierda y los residuos de la GLM normal con función de enlace de registro a la derecha.
Respuestas:
Si; si los supuestos se satisfacen en esa escala
¿Por qué la igualdad de varianza implicaría normalidad?
Debe tener cuidado con el uso de histogramas y pruebas de bondad de ajuste para verificar la idoneidad de sus suposiciones:
1) Tenga cuidado al usar el histograma para evaluar la normalidad. (Ver también aquí )
En resumen, dependiendo de algo tan simple como un pequeño cambio en su elección del ancho del contenedor, o incluso solo la ubicación del límite del contenedor, es posible obtener impresiones muy diferentes de la forma de los datos:
Son dos histogramas del mismo conjunto de datos. Usar varios anchos de bin diferentes puede ser útil para ver si la impresión es sensible a eso.
2) Tenga cuidado al usar pruebas de bondad de ajuste para concluir que el supuesto de normalidad es razonable. Las pruebas formales de hipótesis realmente no responden la pregunta correcta.
Por ejemplo, vea los enlaces en el punto 2. aquí
En circunstancias normales, la pregunta no es "¿son normales mis errores (o distribuciones condicionales)?" - no lo serán, ni siquiera necesitamos verificarlo. Una pregunta más relevante es '¿hasta qué punto afecta el grado de no normalidad presente a mis inferencias? "
Sugiero una estimación de la densidad del núcleo o un QQplot normal (gráfico de residuos frente a puntuaciones normales). Si la distribución parece razonablemente normal, tiene poco de qué preocuparse. De hecho, incluso cuando es claramente no es normal que todavía puede no importar mucho, dependiendo de lo que quiere hacer (intervalos de predicción normal, realmente va a depender de la normalidad, por ejemplo, pero muchas otras cosas tenderán a trabajar en muestras de gran tamaño )
Curiosamente, en muestras grandes, la normalidad se vuelve cada vez menos crucial (aparte de los IP como se mencionó anteriormente), pero su capacidad para rechazar la normalidad se vuelve cada vez mayor.
Editar: el punto sobre la igualdad de varianza es que realmente puede afectar sus inferencias, incluso en muestras de gran tamaño. Pero probablemente tampoco debería evaluar eso mediante pruebas de hipótesis. Obtener el supuesto de varianza incorrecto es un problema cualquiera que sea su distribución supuesta.
Cuando se ajusta a un modelo normal, tiene un parámetro de escala, en cuyo caso su desviación escalada será de Np incluso si su distribución no es normal.
En ausencia continua de saber lo que está midiendo o para qué está usando la inferencia, todavía no puedo juzgar si sugerir otra distribución para el GLM, ni cuán importante podría ser la normalidad para sus inferencias.
Sin embargo, si sus otras suposiciones también son razonables (la linealidad y la igualdad de varianza deben al menos verificarse y se deben considerar las posibles fuentes de dependencia), entonces, en la mayoría de las circunstancias, me sentiría muy cómodo haciendo cosas como usar CI y realizar pruebas de coeficientes o contrastes - solo hay una leve impresión de asimetría en esos residuos, que, incluso si es un efecto real, no debería tener un impacto sustancial en ese tipo de inferencia.
En resumen, deberías estar bien.
(Si bien otra función de distribución y enlace podría mejorar un poco en términos de ajuste, solo en circunstancias restringidas es probable que también tengan más sentido).
fuente