Diagnóstico residual y homogeneidad de variaciones en el modelo lineal mixto

10

Antes de hacer esta pregunta, busqué en nuestro sitio y encontré muchas preguntas similares (como aquí , aquí y aquí ). Pero creo que esas preguntas relacionadas no fueron bien respondidas o discutidas, por lo que me gustaría plantear esta pregunta nuevamente. Siento que debería haber una gran cantidad de público que desea que este tipo de preguntas se expliquen más claramente.

Para mis preguntas, primero considere el modelo lineal de efectos mixtos,

y = X β + Z γ + ϵ

$\mathbf{y = X\boldsymbol \beta + Z \boldsymbol \gamma + \boldsymbol \epsilon}$ donde

X β

$X\boldsymbol \beta$ es el componente lineal de efectos fijos,

Z

$\mathbf{Z}$ es la matriz de diseño adicional que corresponde a los parámetros de efectos aleatorios ,

γ

$\boldsymbol \gamma$ . Y

ϵ \sim N (0, σ^{2} I)

$\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ es el término de error habitual.

Supongamos que el único factor de efecto fijo es una variable categórica Tratamiento , con 3 niveles diferentes. Y el único factor de efecto aleatorio es la variable Asunto . Dicho esto, tenemos un modelo de efectos mixtos con efecto de tratamiento fijo y efecto de sujeto aleatorio.

Mis preguntas son así:

¿Existe el supuesto de homogeneidad de varianza en la configuración del modelo mixto lineal, análogo a los modelos de regresión lineal tradicionales? Si es así, ¿qué significa el supuesto específicamente en el contexto del problema del modelo mixto lineal mencionado anteriormente? ¿Cuáles son otros supuestos importantes que deben evaluarse?

Mis pensamientos: SI. las suposiciones (quiero decir, media de error cero e igual varianza) siguen siendo de aquí: . En la configuración tradicional del modelo de regresión lineal, podemos decir que la suposición es que "la varianza de los errores (o simplemente la varianza de la variable dependiente) es constante en los 3 niveles de tratamiento". Pero no sé cómo podemos explicar esta suposición bajo la configuración de modelo mixto. ¿Deberíamos decir "las variaciones son constantes en 3 niveles de tratamientos, condicionamiento en los sujetos? ¿O no?" $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$

El documento en línea de SAS sobre los diagnósticos de residuos e influencia trajo dos residuos diferentes, es decir, los residuos marginales , y los residuos condicionales , Mi pregunta es, ¿para qué se usan los dos residuos? ¿Cómo podríamos usarlos para verificar el supuesto de homogeneidad? Para mí, solo los residuos marginales se pueden usar para abordar el problema de la homogeneidad, ya que corresponde al del modelo. ¿Mi comprensión aquí es correcta?
$r_{m} = Y - X \hat{β}$ $\mathbf{r_m = Y - X \hat{\boldsymbol \beta}}$ $r_{c} = Y - X \hat{β} - Z \hat{γ} = r_{m} - Z \hat{γ} .$ $\mathbf{r_c = Y - X \hat{\boldsymbol \beta} - Z \hat{\boldsymbol \gamma} = r_m - Z \hat{\boldsymbol \gamma}} .$ $\boldsymbol \epsilon$
¿Hay alguna prueba propuesta para probar el supuesto de homogeneidad bajo el modelo lineal mixto? @Kam señaló la prueba del nivel anteriormente, ¿sería esta la forma correcta? Si no, ¿cuáles son las instrucciones? Creo que después de ajustar el modelo mixto, podemos obtener los residuos, y tal vez podamos hacer algunas pruebas (como la prueba de bondad de ajuste), pero no estoy seguro de cómo sería.
También noté que hay tres tipos de residuos de Proc Mixed en SAS, a saber, el residuo Raw , el residual Studentizado y el residual de Pearson . Puedo entender las diferencias entre ellos en términos de fórmulas. Pero para mí parecen ser muy similares cuando se trata de trazados de datos reales. Entonces, ¿cómo deberían usarse en la práctica? ¿Hay situaciones en las que se prefiere un tipo a los otros?
Para un ejemplo de datos reales, los siguientes dos gráficos residuales son de Proc Mixed en SAS. ¿Cómo podrían abordar la suposición de la homogeneidad de las variaciones?

[Sé que tengo un par de preguntas aquí. Si pudiera darme alguna de sus ideas para cualquier pregunta, eso es genial. No es necesario abordarlos todos si no puede. Realmente deseo discutir sobre ellos para obtener una comprensión completa. ¡Gracias!]

Aquí están las parcelas residuales marginales (en bruto).

Aquí están los gráficos residuales condicionales (en bruto).

mixed-model residuals heteroscedasticity diagnostic Aaron Zeng
fuente

Grandes preguntas: una posible respuesta a su número 2 se puede encontrar aquí comp.soft-sys.sas.narkive.com/7Qmrgufe/…

dandar

3

Creo que las preguntas 1 y 2 están interconectadas. Primero, el supuesto de homogeneidad de varianza proviene de aquí, . Pero este supuesto puede relajarse a estructuras de varianza más generales, en las que el supuesto de homogeneidad no es necesario. Eso significa que realmente depende de cómo se asume la distribución de . $\boldsymbol \epsilon \ \sim \ N(\mathbf{0, \sigma^2 I})$ $\boldsymbol \epsilon$

Segundo, los residuales condicionales se usan para verificar la distribución de (por lo tanto, cualquier suposición relacionada con) , mientras que los residuales marginales se pueden usar para verificar la estructura de varianza total. $\boldsymbol \epsilon$

Aaron Zeng
fuente

Estoy enfrentando algunos de los mismos problemas que @AaronZeng. ¿Qué significa "verificar la estructura de varianza total", para la cual se deben usar los residuos marginales? ¿Cómo podría uno hacer esto, y por qué uno no se concentraría en verificar la estructura de varianza para ? Gracias. $\gamma$

clarpaul

1

Este es un tema realmente amplio y solo proporcionaré una imagen general sobre la conexión a la regresión lineal estándar.

En el modelo que figura en la pregunta, if , donde denota un sujeto o clúster. Sea . Usando la descomposición de Cholesky , podemos transformar el resultado y la matriz de diseño,

y_{i} \sim N (X_{i} β, Z_{i} D Z_{i}^{'} + σ^{2} I),

$\mathbf{y_i \sim N(X_i\boldsymbol \beta, Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I)},$

γ_{i} \sim N (0, D)

$\boldsymbol \gamma_i \sim N(\mathbf{0, D})$

i

$i$

Σ_{i} = Z_{i} D Z_{i}^{'} + σ^{2} I

$\mathbf{\Sigma_i=Z_i \boldsymbol D Z'_i + \boldsymbol \sigma^2 I}$

Σ_{i} = L_{i} L_{i}^{'}

$\mathbf{\Sigma_i=L_i L'_i}$

y_{i}^{*} = L_{i}^{- 1} y_{i}; X_{i}^{*} = L_{i}^{- 1} X_{i} .

$\mathbf{y^*_i=L_i^{-1}y_i; X^*_i=L_i^{-1}X_i}.$

Como se señaló en el Análisis Longitudinal Aplicado (Página 268), la estimación generalizada de mínimos cuadrados (GLS) de (regresión en ) se puede volver a estimar a partir de la regresión OLS de en . Por lo tanto, todos los diagnósticos residuales integrados del OLS resultante se pueden usar aquí . $\boldsymbol \beta$ $\mathbf y_i$ $\mathbf X_i$ $\mathbf y^*_i$ $\mathbf X^*_i$

Lo que debemos hacer es:

estimar partir de las estimaciones del componente residual (marginal) o de varianza en el modelo mixto lineal; $\boldsymbol \Sigma_i$
Vuelva a ajustar una regresión OLS utilizando los datos transformados.

La regresión OLS supone observaciones independientes con varianza homogénea, por lo que se pueden aplicar técnicas de diagnóstico estándar a sus residuos.

Se pueden encontrar muchos más detalles en el Capítulo 10 "Análisis y diagnósticos residuales" del libro Análisis longitudinal aplicado . También discutieron la transformación del residuo con , y hay algunos gráficos de residuos (transformados) (frente a los valores pronosticados o predictores). Se enumeran más lecturas en 10.8 "Lecturas adicionales" y notas bibliográficas. $\mathbf L_i$

Además, en mi opinión, dado que asumimos que son independientes con una varianza homogénea, podemos probar estos supuestos en los residuos condicionales utilizando las herramientas de regresión estándar. $\boldsymbol \epsilon$

Randel
fuente

Un caluroso artículo de prensa sobre este tema.

Randel

Diagnóstico residual y homogeneidad de variaciones en el modelo lineal mixto

Respuestas: