¿Cómo evaluar la normalidad en un ANOVA 2x2?

8

Diseño del estudio: mostré a los participantes cierta información sobre el aumento del nivel del mar, enfocando la información de diferentes maneras, tanto en términos de la escala de tiempo como de la magnitud del aumento potencial. Por lo tanto, tuve un diseño 2 (Tiempo: 2050 o 2100) por 2 (Magnitud: Medio o Alto). También hubo dos grupos de control que no recibieron información, solo respondieron las preguntas de mis DV.

Preguntas: Siempre he verificado la normalidad dentro de las celdas; para la porción 2x2 de este diseño, significaría buscar la normalidad dentro de 4 grupos. Sin embargo, leer algunas discusiones aquí me ha hecho adivinar mis métodos.

Primero, he leído que debería mirar la normalidad de los residuos. ¿Cómo puedo verificar la normalidad de los residuos (en SPSS o en otro lugar)? ¿Tengo que hacer esto para cada uno de los 4 grupos (6 incluidos los controles)?

También leí que la normalidad dentro de los grupos implica la normalidad de los residuos. ¿Es esto cierto? (¿Referencias bibliográficas?) De nuevo, ¿esto significa mirar cada una de las 4 celdas por separado?

En pocas palabras, ¿qué pasos tendría que tomar para determinar si sus datos (2x2) no están violando supuestos de normalidad?

Las referencias siempre son apreciadas, aunque solo sea para señalarme en la dirección correcta.

Sotavento
fuente

Respuestas:

6

La mayoría de los paquetes de estadísticas tienen formas de guardar los residuos de su modelo. Usando GLM - UNIVARIATEen SPSS puede guardar residuos. Esto agregará una variable a su archivo de datos que representa el residuo para cada observación.

Una vez que tenga sus residuos, puede examinarlos para ver si están distribuidos normalmente, son homodésticos, etc. Por ejemplo, podría usar una prueba de normalidad formal en su variable residual o quizás de manera más apropiada, podría trazar los residuos para verificar cualquier desviación importante de la normalidad. Si desea examinar la homocedasticidad, puede obtener una gráfica que analice los residuos por grupo.

Para un ANOVA factorial básico entre sujetos, donde se mantiene la homogeneidad de la varianza, la normalidad dentro de las células significa normalidad de los residuos porque su modelo en ANOVA es predecir las medias grupales. Por lo tanto, el residual es solo la diferencia entre las medias del grupo y los datos observados.

Respuesta a los comentarios a continuación:

  • Los residuos se definen en relación con las predicciones de su modelo. En este caso, las predicciones de su modelo son sus medios celulares. Es una forma más generalizable de pensar acerca de las pruebas de suposición si te enfocas en trazar los residuos en lugar de trazar las medias de las celdas individuales, incluso si en este caso particular, son básicamente lo mismo. Por ejemplo, si agrega una covariable (ANCOVA), los residuos serían más apropiados para examinar que las distribuciones dentro de las celdas.
  • Para fines de examinar la normalidad, los residuos estandarizados y no estandarizados proporcionarán la misma respuesta. Los residuos estandarizados pueden ser útiles cuando intentas identificar datos mal modelados por los datos (es decir, un valor atípico).
  • La homogeneidad de la varianza y la homocedasticidad significan lo mismo hasta donde yo sé. Una vez más, es común examinar este supuesto comparando las variaciones entre grupos / celdas. En su caso, ya sea que calcule la varianza en los residuos para cada celda o en función de los datos sin procesar de cada celda, obtendrá los mismos valores. Sin embargo, también puede trazar los residuos en el eje y y los valores pronosticados en el eje x. Este es un enfoque más generalizable ya que también es aplicable a otras situaciones, como cuando agrega covariables o está haciendo regresión múltiple.
  • Se planteó un punto debajo de que cuando tiene heterocedasticidad (es decir, dentro de la varianza de la célula varía entre las células de la población) y los residuos normalmente distribuidos dentro de las células, la distribución resultante de todos los residuos sería no normal. El resultado sería una distribución mixta de variables con media de cero y diferentes variaciones con proporciones relativas al tamaño de las celdas. La distribución resultante no tendrá sesgo cero, pero presumiblemente tendría cierta cantidad de curtosis. Si divide los residuos por su correspondiente desviación estándar dentro de la celda, entonces podría eliminar el efecto heteroscedasticidad; El trazado de los residuos resultantes proporcionaría una prueba general de si los residuos se distribuyen normalmente independientemente de cualquier heterocedasticidad.
Jeromy Anglim
fuente
Ah sí, ya veo cómo salvarlos. Supongo por lo que usted dice que lo que ahorra son los residuos por grupo, es decir, las diferencias de los valores de muestra de las medias de las celdas, no la gran media. ¿Debo examinar los residuos estandarizados o no estandarizados? Aunque, ¿por qué examinar los residuos si es equivalente a examinar la normalidad dentro de las células? Esto es ciertamente más simple. Y finalmente, mencionas la homocedasticidad. Generalmente verifico la homogeneidad de la varianza entre las células. ¿Es esto algo que también podría necesitar un examen de residuos?
Lee
@Lee Okay. He editado mi respuesta para responder a sus comentarios.
Jeromy Anglim
+1, realmente hay mucha información buena aquí. Una nota, estoy teniendo problemas para analizar partes de su 3er punto, algunas modificaciones pueden ser útiles.
gung - Restablece a Monica
@gung Gracias por los comentarios. Le di una pequeña edición para tratar de aclarar el punto 3.
Jeromy Anglim
Gracias; mucha información genial aquí. Será difícil dejar mi hábito de observar la normalidad de los datos sin procesar (dentro de las celdas), pero ciertamente consideraré los residuos para futuros análisis.
Lee
3

A pesar de que muchos libros de texto introductorios lo enfatizan, no necesita Normalidad. Con un tamaño de muestra modesto y la misma varianza dentro de cada uno de los grupos, es decir, la homocedasticidad, ANOVA proporcionará una inferencia precisa sobre las diferencias en la respuesta media entre los grupos. Si hay razones para sospechar una varianza no constante, y puede haberla, entonces se pueden usar errores estándar consistentes con heterocedasticidad.

Estas propiedades son extensiones de las que son bien conocidas para la prueba t; con una varianza constante, puede usar la prueba t de "vainilla simple", independientemente de la Normalidad (un resultado conocido por Fisher, hace mucho tiempo) y con una varianza no constante, la varianza desigual también funciona bien sin Normalidad. La versión de varianza desigual es equivalente a la prueba de Wald que utiliza errores estándar consistentes con heterocedasticidad.

invitado
fuente
¿Qué te hace decir que la normalidad no importa? Tanto ANOVA como la prueba t pueden ser bastante sensibles a la asimetría. Si la distribución subyacente es asimétrica, no debe usar ninguno de los métodos para tamaños de muestra pequeños.
MånsT
Me encantaría examinar las referencias que respaldan esta afirmación, en particular las recientes. Sin embargo, sin tales referencias, tengo que confiar en la mayoría de los libros de texto.
Lee
2
Aquí hay una referencia ; Tenga en cuenta que realmente intentan romper el método, con ejemplos bastante extremos. Con datos menos extremos, todo seguirá funcionando con tamaños de muestra modestos. También puede buscar el texto clásico de McCullagh y Nelder sobre modelos lineales (generalizados), donde tienen cuidado de describir la regresión lineal a través de modelos de "varianza constante", ya que esta es la suposición que importa. Para errores estándar robustos ver textos introductorios de econometría; La documentación del software STATA también es una buena fuente.
invitado