Diferencia entre prueba t y ANOVA en regresión lineal

12

Me pregunto qué diferencias hay entre la prueba t y ANOVA en regresión lineal.

  1. ¿Es una prueba t para probar si alguna de las pendientes e intersecciones tiene media cero, mientras que ANOVA prueba si todas las pendientes tienen media cero? ¿Es esta la única diferencia entre ellos?
  2. En la regresión lineal simple, es decir, donde solo hay una variable predictora, solo hay una pendiente para estimar. Entonces, ¿son equivalentes la prueba t y el ANOVA, y en caso afirmativo, cómo, dado que están usando estadísticas diferentes (la prueba t está usando el estadístico t y ANOVA está usando el estadístico F)?
Tim
fuente
Ad 1) En regresión lineal, normalmente entiendo ANOVA como una medida de bondad de ajuste del modelo, es decir, para decidir si el modelo (línea de regresión) explica una parte sustancial de la variabilidad total. La pregunta, si es equivalente a que todas las pendientes sean cero, es realmente muy interesante. Anuncio 2) parece que estoy obteniendo casi los mismos valores de p para la prueba t y ANOVA de regresión en este caso. Teorema realmente interesante!
Curioso

Respuestas:

18

El modelo lineal general nos permite escribir un modelo ANOVA como modelo de regresión. Supongamos que tenemos dos grupos con dos observaciones cada uno, es decir, cuatro observaciones en un vector . Entonces, el modelo original sobreparamizado es , donde es la matriz de predictores, es decir, variables indicadoras codificadas de forma simulada: E ( y ) = X β X ( μ 1 μ 1 μ 2 μ 2 ) = ( 1 1 0 1 1 0 1 0 1 1 0 1 ) ( β 0 β 1 β 2 )yE(y)=XβX

(μ1μ1μ2μ2)=(110110101101)(β0β1β2)

Los parámetros no son identificables como porque tiene rango 2 ( no es invertible). Para cambiar eso, presentamos la restricción (contrastes de tratamiento), que nos da el nuevo modelo : X ( X ) X β 1 = 0 E ( y ) = X β ( μ 1 μ 1 μ 2 μ 2 ) = ( 1 0 1 0 1 1 1 1((X)X)1(X)E(y)X(X)Xβ1=0E(y)=Xβ

(μ1μ1μ2μ2)=(10101111)(β0β2)

Entonces, , es decir, adquiere el significado del valor esperado de nuestra categoría de referencia (grupo 1). , es decir, toma el significado de la diferencia a la categoría de referencia. Dado que con dos grupos, solo hay un parámetro asociado con el efecto de grupo, la hipótesis nula ANOVA (todos los parámetros de efecto de grupo son 0) es la misma que la hipótesis nula de peso de regresión (el parámetro de pendiente es 0).μ1=β0β0μ2=β0+β2β2μ2μ1

Una prueba en el modelo lineal general prueba una combinación lineal de los parámetros contra un valor hipotético bajo la hipótesis nula. Al elegir , podemos probar la hipótesis de que (la prueba habitual para el parámetro de pendiente), es decir, aquí, . El estimador es , donde son Estimaciones de OLS para los parámetros. La estadística de prueba general para tales es: tψ=cjβjψ0c=(0,1)β2=0μ2μ1=0ψ^=cjβ^jβ^=(XX)1Xyψ

t=ψ^ψ0σ^c(XX)1c

σ^2=e2/(nRank(X)) es un estimador imparcial de la varianza del error, donde es la suma de los residuos al cuadrado. En el caso de dos grupos , , y los estimadores son y . Con siendo 1 en nuestro caso, la estadística de prueba se convierte en: R un n k ( X ) = 2 ( X ' X ) - 1 X ' = ( 0,5 0,5 0 0,5 - 0,5 0,5 0,5 ) β 0 = 0,5 y 1 + 0,5 y 2 = M 1 β 2 = - 0,5 y 1 - 0,5 ye2Rank(X)=2(XX)1X=(.5.500.5.5.5.5)β^0=0.5y1+0.5y2=M1β^2=0.5y10.5y2+0.5y3+0.5y4=M2M1c(XX)1c

t=M2M10σ^=M2M1e2/(n2)

t N - R un n k ( X ) n - 2 t ( M 2 - M 1 ) 2 / 1t está -distribuido con df (aquí ). Cuando cuadras , obtienes , el estadístico de prueba de la prueba ANOVA para dos grupos ( para entre, para dentro de los grupos) que sigue una - distribución con 1 df.tnRank(X)n2tFbwFn-Rank(X)(M2M1)2/1e2/(n2)=SSb/dfbSSw/dfw=FFbwFnRank(X)

Con más de dos grupos, la hipótesis ANOVA (todos son simultáneamente 0, con ) se refiere a más de un parámetro y no puede expresarse como una combinación lineal , por lo que las pruebas no son equivalentes . 1 j ψβj1jψ

lince
fuente
3

En 1, ANOVA generalmente evaluará las variables de factor y si la varianza entre grupos es o no significativa. Verá claramente la diferencia si su software permite variables indicadoras en una regresión: para cada ficticio obtendrá un valor p que indica si este grupo obtiene puntajes significativamente diferentes de 0 y, como consecuencia, significativamente diferentes al grupo de referencia o al valor de referencia aplicable . Por lo general, no verá hasta qué punto el indicador en sí es importante hasta que realice una prueba ANOVA.

Una prueba F es una prueba t al cuadrado. Por lo tanto, en 2, es lo mismo.

Labor
fuente
¡Gracias! (1) ¿Qué significan aquí las variables indicadoras? (2) Generalmente, una prueba t es equivalente a ANOVA solo cuando solo hay dos grupos. Pero en la regresión lineal simple puede haber más de dos grupos, donde el número de grupos es el número de valores que la variable predictora toma en el conjunto de datos.
Tim
(1) Indicador o variable categórica o factor ... todo lo mismo. (2) De hecho, pero es posible que desee saber qué tan bien un conjunto de dummies / categorías puntúa de ANOVA.
Labor
¡Gracias! (2) Entonces, en regresión lineal simple, ¿cómo es la prueba t equivalente a ANOVA, dado que hay más de dos grupos? ¿Qué significa "qué tan bien un conjunto de puntajes de maniquíes / categorías de ANOVA" significa, y por qué quiero saberlo?
Tim
En la regresión OLS, R² (varianza explicada) será igual a eta² o MSS / TSS de ANOVA sin importar cuántos grupos defina. A continuación, es posible que desee conocer la contribución de un conjunto de dummies (es decir, una variable indicadora) para decir si el conjunto en sí es relevante y en qué medida, que es diferente de la importancia de la diferencia entre una sola categoría con la categoría de referencia .
Labor