La página de Wikipedia en ANOVA enumera tres supuestos , a saber:
- Independencia de casos: esta es una suposición del modelo que simplifica el análisis estadístico.
- Normalidad: las distribuciones de los residuos son normales.
- Igualdad (u "homogeneidad") de variaciones, llamada homocedasticidad ...
El punto de interés aquí es la segunda suposición. Varias fuentes enumeran el supuesto de manera diferente. Algunos dicen que la normalidad de los datos en bruto, algunos reclaman residuales.
Surgen varias preguntas:
- ¿son la normalidad y la distribución normal de los residuos la misma persona (según la entrada de Wikipedia, yo diría que la normalidad es una propiedad y no pertenece directamente a los residuos (pero puede ser una propiedad de los residuos (texto profundamente anidado entre paréntesis, extraño))?
- si no, ¿qué suposición debería ser válida? ¿Uno? ¿Ambos?
- Si la suposición de residuos distribuidos normalmente es la correcta, ¿estamos cometiendo un grave error al verificar la normalidad solo en el histograma de valores brutos?
anova
residuals
assumptions
normality-assumption
Roman Luštrik
fuente
fuente
Respuestas:
Asumamos que este es un modelo de efectos fijos . (El consejo realmente no cambia para los modelos de efectos aleatorios, simplemente se vuelve un poco más complicado).
No, la normalidad y la distribución normal de los residuos no son lo mismo . Suponga que midió el rendimiento de un cultivo con y sin aplicación de fertilizante. En las parcelas sin fertilizante, el rendimiento varió de 70 a 130. En dos parcelas con fertilizante, el rendimiento varió de 470 a 530. La distribución de resultados es fuertemente no normal: se agrupa en dos lugares relacionados con la aplicación de fertilizantes. Supongamos además que los rendimientos promedio son 100 y 500, respectivamente. Entonces todos los residuos varían de -30 a +30. Es posible que (o no) se distribuyan normalmente, pero obviamente esta es una distribución completamente diferente.
La distribución de los residuos es importante , ya que reflejan la parte aleatoria del modelo. Tenga en cuenta también que los valores p se calculan a partir de estadísticas F (o t) y que dependen de los residuos, no de los valores originales.
Si hay efectos significativos e importantes en los datos (como en este ejemplo), entonces usted puede estar cometiendo un error "grave" . Podría, por suerte, tomar la determinación correcta: es decir, al observar los datos sin procesar, verá una mezcla de distribuciones y esto puede parecer normal (o no). El punto es que lo que estás buscando no es relevante.
Los residuos ANOVA no tienen que estar cerca de lo normal para adaptarse al modelo. Sin embargo, la casi normalidad de los residuos es esencial para que los valores de p calculados a partir de la distribución F sean significativos.
fuente
El ANOVA unidireccional clásico estándar puede verse como una extensión de la clásica "prueba T de 2 muestras" a una "prueba T de n muestras". Esto se puede ver al comparar un ANOVA unidireccional con solo dos grupos con la prueba T clásica de 2 muestras.
Creo que donde se está confundiendo es que (bajo los supuestos del modelo) los residuos y los datos en bruto se AMBOS normalmente distribuidos. Sin embargo, los datos sin procesar consisten en distribuciones normales con diferentes medios (a menos que todos los efectos sean exactamente iguales) pero con la misma variación. Los residuos, por otro lado, tienen la misma distribución normal . Esto viene de la tercera suposición de homocedasticidad.
fuente
fuente