Medidas repetidas ANOVA: ¿cuál es el supuesto de normalidad?

Estoy confundido acerca de la suposición de normalidad en medidas repetidas ANOVA. Específicamente, me pregunto qué tipo de normalidad debería satisfacerse exactamente. Al leer la literatura y las respuestas en CV, me encontré con tres palabras distintas de esta suposición.

La variable dependiente dentro de cada condición (repetida) debe distribuirse normalmente.

A menudo se dice que rANOVA tiene los mismos supuestos que ANOVA, más la esfericidad. Esa es la afirmación en las estadísticas de Field's Discovering , así como en el artículo de Wikipedia sobre el tema y el texto de Lowry .
Los residuos (diferencias entre todos los pares posibles?) Deben distribuirse normalmente.

Encontré esta afirmación en múltiples respuestas en CV ( 1 , 2 ). Por analogía de rANOVA con la prueba t emparejada , esto también puede parecer intuitivo.
La normalidad multivariada debe ser satisfecha.

Wikipedia y esta fuente mencionan esto. Además, sé que rANOVA puede intercambiarse con MANOVA, lo que podría merecer esta afirmación.

¿Son equivalentes de alguna manera? Sé que la normalidad multivariada significa que cualquier combinación lineal de los DV se distribuye normalmente, por lo que 3. naturalmente incluiría 2. si entiendo esto último correctamente.

Si no son lo mismo, ¿cuál es el supuesto "verdadero" de la rANOVA? ¿Me puede proporcionar una referencia?

Me parece que hay más apoyo para el primer reclamo. Sin embargo, esto no está en línea con las respuestas que generalmente se proporcionan aquí.

Modelos lineales mixtos

Debido a la sugerencia de @ utobi, ahora entiendo cómo se puede restablecer rANOVA como un modelo mixto lineal. Específicamente, para modelar cómo cambia la presión arterial con el tiempo, modelaría el valor esperado como: donde son las mediciones de la presión arterial, la presión media de la sangre de la sujeto-ésimo, y como el tiempo -ésimo la se midió sujeto -ésimo, denota que el cambio

mi [y_{yo j}] = {un}_{yo} + {si}_{yo} t_{yo j},

$\mathrm{E}\left[y_{ij}\right]=a_{i}+b_i t_{ij},$

y_{i j}

$y_{ij}$

a_{i}

$a_{i}$

i

$i$

t_{i j}

$t_{ij}$

j

$j$

i

$i$

b_{i}

$b_i$ en la presión arterial también es diferente según el sujeto Ambos efectos se consideran aleatorios, ya que la muestra de sujetos es solo un subconjunto aleatorio de la población, lo cual es de interés primario.

Finalmente, traté de pensar en lo que esto significa para la normalidad, pero con poco éxito. Parafraseando a McCulloch y Searle (2001, p. 35. Eq. (2.14)):

\begin{aligned} mi [y_{yo j} El | {un}_{yo}] & = {un}_{yo} \\ y_{yo j} El | {un}_{yo} & \sim yo norte re mi pag . norte ({un}_{yo}, σ^{2}) \\ {un}_{yo} & \sim yo . yo . re . norte (un, σ_{un}^{2}) \end{aligned}

$\begin{align} \mathrm{E}\left[y_{ij}|a_i\right] &= a_i \\[5pt] y_{ij}|a_i &\sim \mathrm{indep.}\ \mathcal{N}(a_i,\sigma^2) \\[5pt] a_i &\sim \mathrm{i.i.d.}\ \mathcal{N}(a,\sigma_a^2) \end{align}$

Entiendo que esto significa que

4. los datos de cada individuo deben distribuirse normalmente, pero esto no es razonable para probar con pocos puntos de tiempo.

Tomo la tercera expresión para decir que

5. los promedios de asignaturas individuales se distribuyen normalmente. Tenga en cuenta que estas son otras dos posibilidades distintas además de las tres mencionadas anteriormente.

McCulloch, CE y Searle, SR (2001). Modelos generalizados, lineales y mixtos . Nueva York: John Wiley & Sons, Inc.

anova repeated-measures assumptions normality-assumption Fato39
fuente

solo para darte una pista. Puede indicar el modelo de rANOVA en términos de un Modelo mixto lineal (LMM). Una vez que tenga un LMM, verá inmediatamente el supuesto de normalidad implícito. Vea aquí ( eu.wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html ) para obtener una teoría de

LMMs

¡Gracias, @utobi, por la referencia que proporcionó! De hecho, estudié sus primeros capítulos, pero no he logrado encontrar la respuesta a mi pregunta. Lo actualicé para reflejar el progreso limitado que hice.

Fato39

Esto me parece una muy buena pregunta. Estoy votando para dejarlo abierto.

gung - Restablecer Monica

Es cierto que los datos de cada individuo deben distribuirse normalmente. Pero si observa lo que ha escrito, todos los datos individuales una vez que se degraden ( se resta) tendrán una media de cero y la misma varianza ( ). Por lo tanto, puede suponer que todos los datos degradados surgen de una única distribución normal. Puede observar los residuos para ver qué tan bien se cumple esta suposición.

a_{i}

$a_i$

σ_{a}^{2}

$\sigma_a^2$

Heteroscedastic Jim

Respuestas:

Este es el modelo ANOVA de medidas repetidas más simple si lo tratamos como un modelo univariante:

y_{yo t} = {un}_{yo} + {si}_{t} + ϵ_{yo t}

$y_{it} = a_{i} + b_{t} + \epsilon_{it}$

donde representa cada caso las veces que los medimos (por lo que los datos están en forma larga). representa los resultados apilados uno encima del otro, representa la media de cada caso, representa la media de cada punto de tiempo y representa las desviaciones de las mediciones individuales desde el caso y el punto de tiempo significa. Puede incluir factores adicionales adicionales como predictores en esta configuración. $i$ $t$ $y_{it}$ $a_{i}$ $b_{t}$ $\epsilon_{it}$

No es necesario hacer suposiciones de distribución sobre , ya que pueden entrar en el modelo como efectos fijos, variables ficticias (al contrario de lo que hacemos con los modelos lineales mixtos). Lo mismo sucede para las muñecas de tiempo. Para este modelo, simplemente hace retroceder el resultado en forma larga contra los maniquíes de persona y los maniquíes de tiempo. El efecto de interés es el tiempo ficticio, la prueba que prueba la hipótesis nula de que es la prueba principal en el ANOVA de medidas repetidas univariadas. $a_{i}$ $F$ $b_{1}=...=b_{t}=0$

¿Cuáles son los supuestos requeridos para que la prueba comporte adecuadamente? El relevante para su pregunta es: $F$

ϵ_{yo t} \sim norte (0 0, σ) estos errores son normalmente distribuidos y homoskedastic

$\begin{equation} \epsilon_{it}\sim\mathcal{N}(0,\sigma)\quad\text{these errors are normally distributed and homoskedastic} \end{equation}$

Hay suposiciones adicionales (más consecuentes) para que la prueba sea válida, ya que se puede ver que los datos no son independientes entre sí, ya que los individuos repiten entre filas. $F$

Si desea tratar las medidas repetidas ANOVA como un modelo multivariado, los supuestos de normalidad pueden ser diferentes, y no puedo ampliarlos más allá de lo que usted y yo hemos visto en Wikipedia.

Jim heterocedastic
fuente

La explicación de la normalidad de ANOVA de medida repetida se puede encontrar aquí:

Comprender los supuestos ANOVA de medidas repetidas para la interpretación correcta de la salida de SPSS

Necesita normalidad de las variables dependientes en los residuos (esto implica una distribución normal en todos los grupos, con varianza común y promedio dependiente del grupo), como en la regresión.
Como notó, la normalidad multivariada implica que todas las combinaciones lineales de las variables dependientes están normalmente distribuidas, por lo que es un concepto más fuerte que la normalidad de las variables individuales ( ). Sin embargo, no estoy convencido de que esto implique la normalidad de los residuos ( ), dado que los residuos están determinados por variables independientes (grupos, en ANOVA) también. Estoy de acuerdo con usted en el punto : básicamente está hablando de un efecto aleatorio de nivel individual que tiene una distribución normal. $3 \rightarrow 1$ $3 \rightarrow 2$ $5$

Federico Tedeschi
fuente

Federico, gracias por tu respuesta. Había estado al tanto de esta explicación (vea mi punto número 2 y el primer enlace de CV al que se hace referencia allí). Si bien aprecio la calidad de las respuestas en el CV, he llegado a respuestas diferentes (¿conflictivas?) A mi pregunta al consultar diferentes fuentes. Por lo tanto, preferiría una fuente que abordara explícita o concluyentemente los matices que mencioné en mis cinco puntos anteriores.

Fato39