¿Cómo probar la significancia estadística para la variable categórica en regresión lineal?

18

Si en una regresión lineal tengo una variable categórica ... ¿cómo sé la importancia estática de la variable categórica?

Digamos que el factor tiene 10 niveles ... habrá 10 valores t resultantes diferentes, bajo el paraguas de una variable de factor ...X1X1

¿Me parece que la significación estadística se prueba para cada nivel de la variable factor? ¿No?

@Macro: siguiendo su sugerencia, he creado el siguiente ejemplo:

Parece que x3 es útil y debe incluirse en el modelo, a partir de la comparación de modelos a continuación.

Pero en realidad eso está mal ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 
Luna
fuente
1
@Luna, ¿por qué está mal? Parece que solías x3generar la ys, por lo que debería incluirse en el modelo y el valor concuerda con esa conclusión. pag
Macro
@Seth: tienes razón. Solo estaba dando un ejemplo de juguete de usar anova generalmente en la comparación de modelos. Entonces no está vinculado a mi pregunta original.
Luna
@Macro: tienes razón. Ahora veo el punto. ¡Gracias!
Luna
La función 'Anova' del paquete R 'car' ( pdf ) le permite probar la importancia general de una variable categórica. Funciona con muchos paquetes y tipos de regresión diferentes.
SK4ndal

Respuestas:

28

Tiene razón en que esos valores solo le indican si la media de cada nivel es significativamente diferente de la media del nivel de referencia. Por lo tanto, solo le informan sobre las diferencias por pares entre los niveles. Probar si el predictor categórico, en su conjunto, es significativo es equivalente a probar si existe alguna heterogeneidad en los medios de los niveles del predictor. Cuando no hay otros predictores en el modelo, este es un problema ANOVA clásico .p

Cuando hay otros predictores en el modelo. tiene dos opciones para evaluar la importancia de un predictor categórico:

(1) La prueba de razón de verosimilitud: Suponga que tiene un resultado , predictores cuantitativos x i 1 , . . . , X i p y el predictor categórico C i con k niveles. El modelo sin el predictor categórico esYiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

En Rque puede encajar este modelo con el lm()mando y extraer la probabilidad de registro con el logLikcomando. Llame a este log-verosimilitud . A continuación, puede ajustar el modelo con el predictor categórico:L0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

Bj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

FRRlm()g1g0anova(g1,g0)

F

Macro
fuente
Muchas gracias Macro. Descubrí que mis datos son altamente no normales. La gráfica QQ es la siguiente: la curva está toda debajo de la línea recta de 45 grados. La curva es tangente a esa línea recta. Y la curva se parece a la curva de f (x) = - x ^ 2 (en forma). ¿Qué tipo de problema estoy enfrentando? ¿Y cómo voy a arreglar esto? ¡Gracias!
Luna
1
@Luna, ¿Sus datos son altamente no normales o los residuos son altamente no normales? Además, no creo que sea posible que todo el conjunto de puntos se encuentre debajo de la línea de 45 grados.
Macro
oh, en realidad tienes razón ... Acabo de echar un vistazo más al diagrama de QQ. No es todo el conjunto de puntos que está debajo de la línea de 45 grados. Es la curva con la forma de f (x) = - x ^ 2 es "tangente" a la línea de 45 grados. Por "tangente" debería haber querido decir que esos puntos alrededor del punto "tangente" están realmente por encima de la línea de 45 grados, aunque muy ligeramente. Por lo tanto, visualmente hablando, la mayoría de los datos (~ 98%) están por debajo de la línea de 45 grados ... ¿qué debo hacer primero para solucionar este problema antes de hacer la comparación del modelo? ¡Gracias!
Luna
2
p
1
@ Druss2k, sí, eso es correcto.
Macro