Si la prueba t y el ANOVA para dos grupos son equivalentes, ¿por qué sus supuestos no son equivalentes?

47

Estoy seguro de que tengo esto completamente envuelto alrededor de mi cabeza, pero no puedo entenderlo.

La prueba t compara dos distribuciones normales usando la distribución Z. Es por eso que hay una suposición de normalidad en los DATOS.

ANOVA es equivalente a la regresión lineal con variables ficticias, y usa sumas de cuadrados, al igual que OLS. Es por eso que hay una suposición de normalidad de los RESIDUALES.

Me ha llevado varios años, pero creo que finalmente he entendido esos hechos básicos. Entonces, ¿por qué la prueba t es equivalente a ANOVA con dos grupos? ¿Cómo pueden ser equivalentes si ni siquiera asumen las mismas cosas sobre los datos?

Chris Beeley
fuente
15
Un punto: las pruebas t usan la distribución t, no la distribución Z
Jeromy Anglim
1
Aunque la pregunta no es correcta, es muy útil. Además, creo que mencionar "prueba t de dos colas" en alguna parte hará que las preguntas / respuestas sean más completas.
Gaurav Singhal

Respuestas:

29

La prueba t con dos grupos supone que cada grupo se distribuye normalmente con la misma varianza (aunque las medias pueden diferir bajo la hipótesis alternativa). Eso es equivalente a una regresión con una variable ficticia ya que la regresión permite que la media de cada grupo difiera pero no la varianza. Por lo tanto, los residuos (igual a los datos con las medias del grupo restadas) tienen la misma distribución, es decir, normalmente se distribuyen con media cero.

Una prueba t con variaciones desiguales no es equivalente a un ANOVA unidireccional.

Rob Hyndman
fuente
3
Puedo buscar una cita, pero esto es bastante fácil de probar empíricamente. F de un ANOVA con dos grupos es exactamente igual a t ^ 2 y los valores p serán exactamente los mismos. La única razón por la que no sería equivalente en el caso de variaciones desiguales es si aplica una corrección. De lo contrario, son lo mismo.
Brett
3
La prueba F es la generalización de la prueba t. La prueba t es para la comparación de 2 tratamientos y la prueba F es para múltiples tratamientos. La derivación se encuentra en el Diseño estadístico de Casella, Capítulo 3 y 4. Sin embargo, como señala el profesor Hyndman, con variaciones desiguales, ya no es una prueba t. Es el problema de Fisher Behren. Por lo general, no utilizamos la solución de Fisher, en su lugar utilizamos la prueba de Welch o un enfoque bayesiano.
suncoolsu
Una prueba t de dos muestras con variaciones desiguales es, de hecho, igual a un ANOVA unidireccional con dos grupos. Quizás lo que quisiste decir fue que una prueba t que usa una corrección por varianzas desiguales (es decir, Welch) no es lo mismo que un ANOVA unidireccional que no se corrige (aunque ¿por qué lo serían?)
Brett
20

La prueba t simplemente es un caso especial de la prueba F donde solo se comparan dos grupos. El resultado de cualquiera será exactamente el mismo en términos del valor p y también existe una relación simple entre las estadísticas F y t. F = t ^ 2. Las dos pruebas son algebraicamente equivalentes y sus supuestos son los mismos.

De hecho, estas equivalencias se extienden a toda la clase de ANOVA, pruebas t y modelos de regresión lineal. La prueba t es un caso especial de ANOVA. ANOVA es un caso especial de regresión. Todos estos procedimientos están incluidos en el Modelo lineal general y comparten los mismos supuestos.

  1. Independencia de las observaciones.
  2. Normalidad de los residuos = normalidad en cada grupo en el caso especial.
  3. Igualdad de varianzas de residuos = igual varianzas entre grupos en el caso especial.

Puede pensar que es normalidad en los datos, pero está verificando la normalidad en cada grupo, que en realidad es lo mismo que verificar la normalidad en los residuos cuando el único predictor en el modelo es un indicador de grupo. Igualmente con variaciones iguales.

Por otro lado, R no tiene rutinas separadas para ANOVA. Las funciones anova en R son solo envoltorios de la función lm (), lo mismo que se usa para ajustar los modelos de regresión lineal, empaquetados de manera un poco diferente para proporcionar lo que normalmente se encuentra en un resumen ANOVA en lugar de un resumen de regresión.

Brett
fuente
Estaría interesado en saber cómo ajustar medidas repetidas de modelos ANOVA usando lm.
AndyF
1
En este artículo se describen los problemas de codificación de variables categóricas, la equivalencia de los modelos de regresión y ANOVA y la codificación de regresión para medidas repetidas. dionysus.psych.wisc.edu/Lit/Topics/Statistics/Contrasts/… Aquí está la cita ... Wendorf, CA (2004). Manual sobre codificación de regresión múltiple: formas comunes y el caso adicional de contrastes repetidos. Comprender las estadísticas 3, 47-57.
Brett
44
@AndyF No lm(), a menos que cambie a modelos mixtos con el paquete nlmeo lme4, pero hay una manera práctica de manejar mediciones repetidas a través de la especificación apropiada del Errortérmino en aov(), vea más detalles en el tutorial de Baron & Li, §6.9, j.mp/ c5ME4u
chl
@AndyF aov()está construido sobre la lm()función pero incluye argumentos adicionales, llamados términos especiales , como Error.
chl
aov () es simplemente un contenedor para lm (). Hace un poco de codificación de contraste detrás de escena y empaqueta el resultado en el estilo ANOVA. Todo está modelado por lm (). En el artículo al que hice referencia anteriormente, le dice cómo configurar la codificación para hacer contrastes repetidos en modelos de regresión, incluido lm ().
Brett
17

Estoy totalmente de acuerdo con la respuesta de Rob, pero déjame decirlo de otra manera (usando wikipedia):

Suposiciones ANOVA :

  • Independencia de casos: esta es una suposición del modelo que simplifica el análisis estadístico.
  • Normalidad: las distribuciones de los residuos son normales.
  • Igualdad (u "homogeneidad") de las variaciones, llamada homocedasticidad

Supuestos t-test :

  • Cada una de las dos poblaciones que se comparan debe seguir una distribución normal ...
  • ... las dos poblaciones que se comparan deberían tener la misma varianza ...
  • Los datos utilizados para llevar a cabo la prueba deben tomarse muestras independientemente de las dos poblaciones que se comparan.

Por lo tanto, rechazaría la pregunta, ya que obviamente tienen los mismos supuestos (aunque en un orden diferente :-)).

Henrik
fuente
Ver comentario a Rob.
Alexis
@ Alexis No estoy seguro de entender tu voto negativo. Cuidado para elaborar.
Henrik
La segunda suposición de la prueba t no es cierta. El trabajo original del estudiante asumió esto, pero "variaciones desiguales" es una suposición bastante común en el tratamiento posterior de la prueba.
Alexis
5

Un punto obvio que todo el mundo pasa por alto: con ANOVA está probando que la media es idéntica independientemente de los valores de sus variables explicativas. Con una prueba T también puede probar el caso unilateral, que la media es específicamente mayor dado un valor de su variable explicativa que el otro.

dsimcha
fuente
1
A menos que me equivoque, esto NO es una diferencia. Si realiza un ANOVA en dos grupos, puede hacer una "prueba unilateral" tal como puede hacerlo en una prueba t. Puse "prueba unilateral" entre comillas porque en realidad no hay diferencia en la "prueba" entre una "prueba unilateral" y una "prueba bilateral". La única diferencia es cómo interpreta la significancia estadística de los valores p. Por lo tanto, las "pruebas" de un solo lado o de dos lados son exactamente la misma "prueba". Solo la forma de interpretar correctamente los resultados es diferente.
Tripartio
-3

Preferiré usar la prueba t para comparar dos grupos y usaré ANOVA para más de 2 grupos, por razones. Una razón importante es la suposición de variaciones iguales.

syed
fuente
55
Bienvenido al sitio, @syed. ¿Te importaría ampliar tu respuesta? Por ejemplo, ¿a qué "razones" se refiere? Tenga en cuenta que tanto la prueba t como ANOVA asumen variaciones iguales.
gung - Reinstale a Monica