¿Por qué son idénticas estas tablas de regresión anova?

11

Tengo dos regresiones de la misma Y y X de tres niveles. En general n = 15, con n = 5 en cada grupo o nivel de X. La primera regresión trata la X como categórica, asignando variables indicadoras a los niveles 2 y 3 con nivel Uno es la referencia. Los indicadores / dummies son así: X1 = 1 si nivel = 2, 0 si más X2 = 1 si nivel = 3, 0 si más

Como resultado, mi modelo ajustado se ve así: y = b0 + b1 (x1) + b2 (x2)

Ejecuto la regresión, y el resultado incluye esta tabla de Análisis de varianza:

mesa

El resto de la salida es irrelevante aquí.

Bien, ahora ejecuto una regresión diferente en los mismos datos. Elimino el análisis categórico y trato a X como continuo, pero agrego una variable a la ecuación: X ^ 2, el cuadrado de X. Así que ahora tengo el siguiente modelo: y = b0 + b1 (X) + b2 (X) ^ 2

Si lo ejecuto, escupe la misma tabla exacta de Análisis de varianza que le mostré anteriormente. ¿Por qué estas dos regresiones dan lugar a las mismas tablas?

[El crédito por este pequeño enigma es para Thomas Belin en el Departamento de Bioestadística de la Universidad de California en Los Ángeles].

logjammin
fuente
Creo que tendrá que mostrarnos el código que "hace la regresión" y, posiblemente, el paso de datos (me parece una salida SAS) que utiliza para crear la tabla de datos sobre la que está operando.
Brad S.
1
@Brad No creo que sea necesario: la situación se describe claramente y no se necesita más información para explicar lo que está sucediendo.
whuber
@whuber Quizás. Supongo que si lo dices pero me parece un error de programación. Espero su respuesta.
Brad S.
1
@Brad No es un error de programación: publiqué mi explicación. Es una buena pregunta, con verdadero interés estadístico (y aplicabilidad).
whuber
Hola Brad, en realidad es de un conjunto de problemas: la situación me fue dada de la misma manera que se la di a ustedes, y la pregunta se planteó de la misma manera: "¿por qué serían lo mismo?". Es solo cómo lo expongo: dos modelos, las mismas tablas ANOVA, el resto de las salidas ni siquiera se dan (debería haber dejado eso claro en lugar de decir "irrelevante").
logjammin

Respuestas:

22

E[Y]=Xβ

(1,0,0)X(1,1,0)(1,0,1)

(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)(1,3,32)=(1,3,9)

X1X2

V=(111013028).

Entonces desde

(100110101)V=(111124139),

resulta que

X1V=X2.

Los modelos en sí mismos, por lo tanto, están relacionados por

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

β2

β1=Vβ2.

Por lo tanto, la misma relación se mantiene para sus estimaciones de mínimos cuadrados. Esto muestra que los modelos tienen ajustes idénticos : simplemente los expresan de manera diferente.

Como las primeras columnas de las dos matrices modelo son iguales, cualquier tabla ANOVA que descomponga la varianza entre la primera columna y las columnas restantes no cambiará. Sin embargo, una tabla ANOVA que distinga entre la segunda y la tercera columna dependerá de cómo se codifiquen los datos.

R15X1X2


Para ilustrar, aquí hay datos como el suyo (pero con diferentes respuestas) y los análisis correspondientes generados en R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

Montar los dos modelos:

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

Mostrar sus tablas ANOVA:

anova(fit.1)
anova(fit.2)

La salida para el primer modelo es

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

Para el segundo modelo es

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

Puedes ver que las sumas residuales de los cuadrados son iguales. Al agregar las dos primeras filas en el segundo modelo, obtendrá el mismo DF y la suma de los cuadrados, a partir de los cuales se puede calcular el mismo cuadrado medio, valor F y valor p.

Finalmente, comparemos las estimaciones de coeficientes.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

La salida es

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

Los ajustes realmente son los mismos tal como se afirma.

whuber
fuente
66
Santo cielo, hombre. Nunca he tenido una respuesta más considerada y exhaustiva al hacerle una pregunta a Internet. Gracias x1000, en serio.
logjammin
¡Bienvenido a nuestro sitio! Espero que continúes usándolo y espero tus contribuciones.
whuber
1
¡Aprendí algo hoy! (votado a favor)
Brad S.
Respuesta asombrosa ¡Mente alucinada!
kedarps
5

Brevemente, ambos modelos están saturados en el sentido de que proporcionan predicciones empíricas únicas de la respuesta en los 3 niveles de X. Puede ser obvio para la codificación de la variable de factor en el modelo 1. Para una tendencia cuadrática, es interesante notar que un La fórmula cuadrática puede interpolar 3 puntos. Si bien los contrastes son diferentes, en ambos modelos, la prueba global contra un modelo nulo de solo intercepción proporciona una inferencia idéntica.

AdamO
fuente