Supuesto ANOVA normalidad / distribución normal de residuos

La página de Wikipedia en ANOVA enumera tres supuestos , a saber:

Independencia de casos: esta es una suposición del modelo que simplifica el análisis estadístico.
Normalidad: las distribuciones de los residuos son normales.
Igualdad (u "homogeneidad") de variaciones, llamada homocedasticidad ...

El punto de interés aquí es la segunda suposición. Varias fuentes enumeran el supuesto de manera diferente. Algunos dicen que la normalidad de los datos en bruto, algunos reclaman residuales.

Surgen varias preguntas:

¿son la normalidad y la distribución normal de los residuos la misma persona (según la entrada de Wikipedia, yo diría que la normalidad es una propiedad y no pertenece directamente a los residuos (pero puede ser una propiedad de los residuos (texto profundamente anidado entre paréntesis, extraño))?
si no, ¿qué suposición debería ser válida? ¿Uno? ¿Ambos?
Si la suposición de residuos distribuidos normalmente es la correcta, ¿estamos cometiendo un grave error al verificar la normalidad solo en el histograma de valores brutos?

anova residuals assumptions normality-assumption Roman Luštrik
fuente

Puedes ignorar casi cualquier otra cosa que esas fuentes digan si afirman que los datos sin procesar deben distribuirse normalmente. Y, de todos modos, quién dijo "nosotros" solo estábamos verificando los valores brutos con histogramas. ¿Estás en una de esas clases Six Sigma?

DWin

@Andy W: Acabo de agregar un enlace a lo que parece ser la sección relevante del artículo de Wikipedia sobre ANOVA.

onestop

@DWin: blog.markanthonylawson.com/?p=296 (lo siento, completamente fuera de tema, pero no pudo resistir)

onestop

@onestop gracias. Solo solicité el enlace porque soy flojo y no quería buscar ANOVA en la wikipedia, no porque sea esencial para la pregunta.

Andy W

Pregunta relacionada aquí: qué-si-los-residuos-son-normalmente-distribuidos-pero-y-no es .

gung - Restablecer Monica

Respuestas:

Asumamos que este es un modelo de efectos fijos . (El consejo realmente no cambia para los modelos de efectos aleatorios, simplemente se vuelve un poco más complicado).

No, la normalidad y la distribución normal de los residuos no son lo mismo . Suponga que midió el rendimiento de un cultivo con y sin aplicación de fertilizante. En las parcelas sin fertilizante, el rendimiento varió de 70 a 130. En dos parcelas con fertilizante, el rendimiento varió de 470 a 530. La distribución de resultados es fuertemente no normal: se agrupa en dos lugares relacionados con la aplicación de fertilizantes. Supongamos además que los rendimientos promedio son 100 y 500, respectivamente. Entonces todos los residuos varían de -30 a +30. Es posible que (o no) se distribuyan normalmente, pero obviamente esta es una distribución completamente diferente.
La distribución de los residuos es importante , ya que reflejan la parte aleatoria del modelo. Tenga en cuenta también que los valores p se calculan a partir de estadísticas F (o t) y que dependen de los residuos, no de los valores originales.
Si hay efectos significativos e importantes en los datos (como en este ejemplo), entonces usted puede estar cometiendo un error "grave" . Podría, por suerte, tomar la determinación correcta: es decir, al observar los datos sin procesar, verá una mezcla de distribuciones y esto puede parecer normal (o no). El punto es que lo que estás buscando no es relevante.

Los residuos ANOVA no tienen que estar cerca de lo normal para adaptarse al modelo. Sin embargo, la casi normalidad de los residuos es esencial para que los valores de p calculados a partir de la distribución F sean significativos.

whuber
fuente

Creo que hay puntos importantes que agregar: en un ANOVA, la normalidad dentro de cada grupo (no en general) es equivalente a la normalidad de los residuos.

Aniko

@ Aniko ¿Podrías explicar qué quieres decir con "equivalente" en tu comentario? Es casi tautológico que la normalidad dentro de un grupo es igual a la normalidad de los residuos de ese grupo, pero es falso que la normalidad por separado dentro de cada grupo implica (o está implícita en) la normalidad de los residuos.

whuber

Realmente quise decir el sentido tautológico: si los grupos son normales, entonces los residuos son normales. Lo contrario solo es cierto si se agrega homoscedascity (como en ANOVA). No me refiero a abogar por verificar los grupos en lugar de los residuos, pero creo que esta es la razón subyacente de la formulación variable de los supuestos.

Aniko

Me he dado cuenta de que las personas que realizan un ANOVA generalmente parecen interesadas en calcular los valores p y, por lo tanto, la normalidad de los residuos es importante para ellos. ¿Hay alguna razón común para ajustar un modelo ANOVA si no estamos interesados en calcular los valores p de la distribución F? Disculpas si esta pregunta es demasiado amplia para un comentario.

user1205901 - Reinstale a Monica

@ user1205901 Ese es un muy buen punto. Dos usos comunes de ANOVA que no se basan en la prueba F son (1) es una forma conveniente de obtener estimaciones de efectos y (2) es parte integral de un cálculo de componentes de la varianza.

whuber

El ANOVA unidireccional clásico estándar puede verse como una extensión de la clásica "prueba T de 2 muestras" a una "prueba T de n muestras". Esto se puede ver al comparar un ANOVA unidireccional con solo dos grupos con la prueba T clásica de 2 muestras.

Creo que donde se está confundiendo es que (bajo los supuestos del modelo) los residuos y los datos en bruto se AMBOS normalmente distribuidos. Sin embargo, los datos sin procesar consisten en distribuciones normales con diferentes medios (a menos que todos los efectos sean exactamente iguales) pero con la misma variación. Los residuos, por otro lado, tienen la misma distribución normal . Esto viene de la tercera suposición de homocedasticidad.

$Y_{ij}$ $\mu_{j}$ $\sigma^2$ $Y_{ij}=\mu_{j}+\sigma\epsilon_{ij}$ $\epsilon_{ij}$

$\epsilon_{ij}$

$Y_{ij}$

probabilidadislogica
fuente

+1 para señalar (en el último párrafo) la suposición de homocedasticidad.

whuber

¿Significa que si hemos dejado que digamos n grupos dependientes para comparar, necesitamos verificar sus residuos por separado (lo que resulta en n grupos de residuos)?

Stan

$p$ $n_{j}$ $F = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}}$

$SS_{b} = \sum_{j=1}^{p}{n_{j} (M - M_{j}})^{2}$

$SS_{w} = \sum_{j=1}^{p}\sum_{i=1}^{n_{j}}{(y_{ij} - M_{j})^{2}}$

$F$ $F$ $SS_{b} / df_{b}$ $SS_{w} / df_{w}$ $\chi^{2}$ $df_{b}$ $df_{w}$ $SS_{b}$ $SS_{w}$ $0$ $M-M_{j}$ $y_{ij}-M_{j}$

$y_{i(j)} - M_{j}$ $Y = \mu_{j} + \epsilon = \mu + \alpha_{j} + \epsilon$ $y_{i(j)} - M$ $Y = \mu + \epsilon$ $M - M_{j}$

$H_{0}$ $M$ $y_{i(j)} - M_{j}$ $M - M_{j}$

lince
fuente

S S

$SS$

χ^{2}

$\chi^2$

M_{j} = M

$M_j=M$

j

$j$

y_{i j} - M_{j}

$y_{ij}-M_j$

M_{j} - M

$M_j-M$

@onestop Editado para reflejar su aclaración, ¡gracias!

caracal