Si en una regresión lineal tengo una variable categórica ... ¿cómo sé la importancia estática de la variable categórica?
Digamos que el factor tiene 10 niveles ... habrá 10 valores t resultantes diferentes, bajo el paraguas de una variable de factor ...
¿Me parece que la significación estadística se prueba para cada nivel de la variable factor? ¿No?
@Macro: siguiendo su sugerencia, he creado el siguiente ejemplo:
Parece que x3 es útil y debe incluirse en el modelo, a partir de la comparación de modelos a continuación.
Pero en realidad eso está mal ...
n=100
x1=1:n
x2=(1:n)^2
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)
lm2=lm(y~x1+x2)
summary(lm2)
anova(lm1, lm2)
> anova(lm1, lm2)
Analysis of Variance Table
Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 82.782
2 97 146.773 -1 -63.99 74.207 1.401e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
x3
generar lay
s, por lo que debería incluirse en el modelo y el valor concuerda con esa conclusión.Respuestas:
Tiene razón en que esos valores solo le indican si la media de cada nivel es significativamente diferente de la media del nivel de referencia. Por lo tanto, solo le informan sobre las diferencias por pares entre los niveles. Probar si el predictor categórico, en su conjunto, es significativo es equivalente a probar si existe alguna heterogeneidad en los medios de los niveles del predictor. Cuando no hay otros predictores en el modelo, este es un problema ANOVA clásico .p
Cuando hay otros predictores en el modelo. tiene dos opciones para evaluar la importancia de un predictor categórico:
(1) La prueba de razón de verosimilitud: Suponga que tiene un resultado , predictores cuantitativos x i 1 , . . . , X i p y el predictor categórico C i con k niveles. El modelo sin el predictor categórico esYi Xi1,...,Xip Ci k
EnL0
R
que puede encajar este modelo con ellm()
mando y extraer la probabilidad de registro con ellogLik
comando. Llame a este log-verosimilitud . A continuación, puede ajustar el modelo con el predictor categórico:R
lm()
1-pchisq(2*(L1-L0),df=k-1)
R
R
R
lm()
g1
g0
anova(g1,g0)
fuente