Estaba tratando de ajustar datos de una serie de tiempo (sin réplicas) usando el modelo de regresión. Los datos son los siguientes:
> xx.2
value time treat
1 8.788269 1 0
2 7.964719 6 0
3 8.204051 12 0
4 9.041368 24 0
5 8.181555 48 0
6 8.041419 96 0
7 7.992336 144 0
8 7.948658 1 1
9 8.090211 6 1
10 8.031459 12 1
11 8.118308 24 1
12 7.699051 48 1
13 7.537120 96 1
14 7.268570 144 1
Debido a la falta de réplicas, trato el tiempo como variable continua. La columna "tratar" muestra el caso y los datos de control, respectivamente.
Primero, ajusto el modelo "value = time * treat" con "lm" en R
:
summary(lm(value~time*treat,data=xx.2))
Call:
lm(formula = value ~ time * treat, data = xx.2)
Residuals:
Min 1Q Median 3Q Max
-0.50627 -0.12345 0.00296 0.04124 0.63785
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.493476 0.156345 54.325 1.08e-13 ***
time -0.003748 0.002277 -1.646 0.1307
treat -0.411271 0.221106 -1.860 0.0925 .
time:treat -0.001938 0.003220 -0.602 0.5606
El valor del tiempo y el tratamiento no es significativo.
Mientras que con anova, obtuve resultados diferentes:
summary(aov(value~time*treat,data=xx.2))
Df Sum Sq Mean Sq F value Pr(>F)
time 1 0.7726 0.7726 8.586 0.0150 *
treat 1 0.8852 0.8852 9.837 0.0106 *
time:treat 1 0.0326 0.0326 0.362 0.5606
Residuals 10 0.8998 0.0900
El valor de tiempo y trato cambió.
Con la regresión lineal, si tengo razón, significa que el tiempo y el tratamiento no tienen una influencia significativa en el valor, pero con ANOVA, significa que el tiempo y el tratamiento tienen una influencia significativa en el valor.
¿Podría alguien explicarme por qué hay diferencia en estos dos métodos y cuál usar?
lm
yaov
puede comprobar que producen ajustes idénticos; por ejemplo, compare sus residuos con laresiduals
función o examine sus coeficientes (la$coefficients
ranura en ambos casos).Respuestas:
Los ajustes para lm () y aov () son idénticos pero los informes son diferentes. Las pruebas t son el impacto marginal de las variables en cuestión, dada la presencia de todas las demás variables. Las pruebas F son secuenciales, por lo que evalúan la importancia del tiempo en presencia de nada más que la intercepción, de tratar en presencia de nada más que la intercepción y el tiempo, y de la interacción en presencia de todo lo anterior.
Suponiendo que esté interesado en la importancia del tratamiento, le sugiero que se ajuste a dos modelos, uno con y otro sin él, compare los dos colocando ambos modelos en anova () y use esa prueba F. Esto probará el tratamiento y la interacción simultáneamente.
Considera lo siguiente:
fuente
aov
.La respuesta de Peter Ellis es excelente, pero hay otro punto que hacer. El estadístico -test (y su valor ) es una prueba de si . La prueba en la impresión es si la variable agregada reduce significativamente la suma residual de cuadrados.p β = 0 Ft pags β= 0 F
anova()
La prueba es independiente del orden, mientras que la prueba no lo es. De ahí la sugerencia de Peter de que pruebe las variables en diferentes órdenes. También es posible que las variables significativas en una prueba no sean significativas en la otra (y viceversa).Ft F
Mi sentido (y otros contribuyentes son bienvenidos para corregirme) es que cuando intentas predecir fenómenos (como en una aplicación de sistemas), estás más interesado en reducir la varianza con la menor cantidad de predictores y, por lo tanto, quieres losX y β
anova()
resultados. Sin embargo, si está tratando de establecer el efecto marginal de en , estará más preocupado por la importancia de su particular de interés, y todas las demás variables solo controlarán las explicaciones alternativas que sus revisores pares tratarán de encontrar.y βfuente
Las dos respuestas anteriores son geniales, pero pensé que agregaría un poco más. Se puede obtener otra pepita de información desde aquí .
Cuando informa los
lm()
resultados con el término de interacción, dice algo como: "tratar 1 es diferente de tratar 0 (beta! = 0, p = 0.0925), cuando el tiempo se establece en el valor base de 1 ". Mientras que losanova()
resultados ( como se mencionó anteriormente ) ignoran cualquier otra variable y solo se preocupan por las diferencias en la varianza.Puede probar esto eliminando su término de interacción y utilizando un modelo simple con solo dos efectos principales ( m1 ):
En este caso, vemos que los valores p informados son los mismos; eso es porque en el caso de este modelo más simple,
fuente
summary(lm)
yanova(lm)
no siempre dará un resultado idéntico si no hay un término de interacción. Sucede que en estos datostime
ytreat
son ortogonales, las sumas de cuadrados de tipo I (secuencial) y III (marginal) producen resultados idénticos.REPRODUCCIÓN DE PROBLEMAS
ALGUNOS MODELOS UTILIZADOS EN LA EXPLICACIÓN
CÓMO FUNCIONA LM T_TEST Y SE RELACIONA CON F-TEST
CÓMO FUNCIONA Y ELIGE AOV DF EN PRUEBAS F
NOTA IMPORTANTE
fuente