Tengo dos regresiones de la misma Y y X de tres niveles. En general n = 15, con n = 5 en cada grupo o nivel de X. La primera regresión trata la X como categórica, asignando variables indicadoras a los niveles 2 y 3 con nivel Uno es la referencia. Los indicadores / dummies son así: X1 = 1 si nivel = 2, 0 si más X2 = 1 si nivel = 3, 0 si más
Como resultado, mi modelo ajustado se ve así: y = b0 + b1 (x1) + b2 (x2)
Ejecuto la regresión, y el resultado incluye esta tabla de Análisis de varianza:
El resto de la salida es irrelevante aquí.
Bien, ahora ejecuto una regresión diferente en los mismos datos. Elimino el análisis categórico y trato a X como continuo, pero agrego una variable a la ecuación: X ^ 2, el cuadrado de X. Así que ahora tengo el siguiente modelo: y = b0 + b1 (X) + b2 (X) ^ 2
Si lo ejecuto, escupe la misma tabla exacta de Análisis de varianza que le mostré anteriormente. ¿Por qué estas dos regresiones dan lugar a las mismas tablas?
[El crédito por este pequeño enigma es para Thomas Belin en el Departamento de Bioestadística de la Universidad de California en Los Ángeles].
fuente
Respuestas:
Entonces desde
resulta que
Los modelos en sí mismos, por lo tanto, están relacionados por
Por lo tanto, la misma relación se mantiene para sus estimaciones de mínimos cuadrados. Esto muestra que los modelos tienen ajustes idénticos : simplemente los expresan de manera diferente.
Como las primeras columnas de las dos matrices modelo son iguales, cualquier tabla ANOVA que descomponga la varianza entre la primera columna y las columnas restantes no cambiará. Sin embargo, una tabla ANOVA que distinga entre la segunda y la tercera columna dependerá de cómo se codifiquen los datos.
Para ilustrar, aquí hay datos como el suyo (pero con diferentes respuestas) y los análisis correspondientes generados en
R
.Montar los dos modelos:
Mostrar sus tablas ANOVA:
La salida para el primer modelo es
Para el segundo modelo es
Puedes ver que las sumas residuales de los cuadrados son iguales. Al agregar las dos primeras filas en el segundo modelo, obtendrá el mismo DF y la suma de los cuadrados, a partir de los cuales se puede calcular el mismo cuadrado medio, valor F y valor p.
Finalmente, comparemos las estimaciones de coeficientes.
La salida es
Los ajustes realmente son los mismos tal como se afirma.
fuente
Brevemente, ambos modelos están saturados en el sentido de que proporcionan predicciones empíricas únicas de la respuesta en los 3 niveles de X. Puede ser obvio para la codificación de la variable de factor en el modelo 1. Para una tendencia cuadrática, es interesante notar que un La fórmula cuadrática puede interpolar 3 puntos. Si bien los contrastes son diferentes, en ambos modelos, la prueba global contra un modelo nulo de solo intercepción proporciona una inferencia idéntica.
fuente