Contradicción de significación en la regresión lineal: prueba t significativa para un coeficiente vs estadística F global no significativa

35

Estoy ajustando un modelo de regresión lineal múltiple entre 4 variables categóricas (con 4 niveles cada una) y una salida numérica. Mi conjunto de datos tiene 43 observaciones.

La regresión me da los siguientes valores de la prueba para cada coeficiente de pendiente: . Por lo tanto, el coeficiente para el cuarto predictor es significativo en nivel de confianza.pagst.15,.67,.27,.02α=.05

Por otro lado, la regresión me da un valor de una prueba general de la hipótesis nula de que todos mis coeficientes de pendiente son iguales a cero. Para mi conjunto de datos, este valor es .pFp.11

Mi pregunta: ¿cómo debo interpretar estos resultados? ¿Qué valor debo usar y por qué? ¿Es el coeficiente de la cuarta variable significativamente diferente de en el nivel de confianza α = .05 ?p0α=.05

He visto una pregunta relacionada, estadísticas de F y t en una regresión , pero había una situación opuesta: valores altos de t test p y valores bajos de F -test p . Honestamente, no entiendo por qué necesitaríamos una prueba F además de una prueba t para ver si los coeficientes de regresión lineal son significativamente diferentes de cero.

León
fuente
2
Si tiene 4 variables categóricas con 4 niveles cada una, debe tener 3 * 4 = 12 coeficientes para sus variables independientes (más la intercepción) ...
boscovich
@andrea: he decidido tratarlos como variables numéricas.
Leo
44
0.02 es apenas significativo (especialmente si considera el hecho de que tiene cinco pruebas en total) y 0.11 no es muy alto. Una interpretación generosa sería que con un poco más de potencia, la prueba F general también sería significativa (y quizás también el primer coeficiente). Una interpretación más conservadora es que no debe tener mucha confianza en ninguno de estos resultados (incluido el coeficiente con un valor de 0.02 p). De cualquier manera, no deberías leer demasiado en la diferencia entre .02 y .11.
Gala
3
Para una discusión sobre el caso opuesto, también puede ver aquí: ¿cómo puede una regresión ser significativa pero todos los predictores no son significativos , además de la pregunta vinculada anteriormente?
gung - Restablece a Monica

Respuestas:

37

No estoy seguro de que la multicolinealidad sea lo que está sucediendo aquí. Ciertamente podría ser, pero a partir de la información dada no puedo concluir eso, y no quiero comenzar allí. Mi primera suposición es que este podría ser un problema de comparaciones múltiples. Es decir, si ejecuta suficientes pruebas, algo aparecerá, incluso si no hay nada allí.

Una de las cuestiones que planteo es que el problema de las comparaciones múltiples siempre se discute en términos de examinar muchas comparaciones por pares, por ejemplo, ejecutar pruebas t en cada par de niveles únicos. (Para un tratamiento humorístico de las comparaciones múltiples, mire aquí ). Esto deja a las personas con la impresión de que ese es el único lugar donde aparece este problema. Pero esto simplemente no es cierto: el problema de las comparaciones múltiples aparece en todas partes. Por ejemplo, si ejecuta una regresión con 4 variables explicativas, existen los mismos problemas. En un experimento bien diseñado, los IV pueden ser ortogonales, pero las personas se preocupan habitualmente por usar correcciones de Bonferroni en conjuntos de contrastes ortogonales a priori, y no piensan dos veces en los ANOVA factoriales. En mi opinión, esto es inconsistente.

La prueba F global es lo que se llama una prueba 'simultánea'. Esto verifica si todos sus predictores no están relacionados con la variable de respuesta. La prueba simultánea proporciona cierta protección contra el problema de las comparaciones múltiples sin tener que ir por la ruta de Bonferroni que pierde energía. Desafortunadamente, mi interpretación de lo que informa es que tiene un hallazgo nulo.

Varias cosas mitigan esta interpretación. Primero, con solo 43 datos, es casi seguro que no tienes mucha potencia. Es muy posible que haya un efecto real, pero simplemente no puede resolverlo sin más datos. En segundo lugar, al igual que @andrea y @Dimitriy, me preocupa la conveniencia de tratar las variables categóricas de 4 niveles como numéricas. Es muy posible que esto no sea apropiado y podría tener cualquier número de efectos, incluida la disminución de su capacidad para detectar lo que realmente hay. Por último, no estoy seguro de que las pruebas de significación sean tan importantes como la gente cree. Una pags de .11 es algo baja; ¿Hay algo realmente allí? ¡tal vez! ¿Quién sabe? No hay una "línea brillante" en .05 que delimite los efectos reales de la mera apariencia.

gung - Restablece a Monica
fuente
24

Me gustaría sugerir que este fenómeno (de una prueba general no significativa a pesar de una variable individual significativa) puede entenderse como una especie de "efecto de enmascaramiento" agregado y que, aunque posiblemente podría surgir de variables explicativas multicolineales, no es necesario eso en absoluto. También resulta que no se debe a múltiples ajustes de comparación, tampoco. Por lo tanto, esta respuesta agrega algunas calificaciones a las respuestas que ya han aparecido, que por el contrario sugieren que la multicolinealidad o las comparaciones múltiples deben considerarse como los culpables.

Para establecer la plausibilidad de estas afirmaciones, generemos una colección de variables perfectamente ortogonales , tan no colineales como sea posible, y una variable dependiente que se determina explícitamente únicamente por el primero de los explicados (más una buena cantidad de error aleatorio independiente de todo lo demás). En Resto se puede hacer (de forma reproducible, si desea experimentar) como

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

No es importante que las variables explicativas sean binarias; lo que importa es su ortogonalidad, que podemos verificar para asegurarnos de que el código funcione como se esperaba, lo que se puede hacer inspeccionando sus correlaciones. De hecho, la matriz de correlación es interesante : los coeficientes pequeños sugieren que ytiene poco que ver con cualquiera de las variables, excepto la primera (que es por diseño) y los ceros fuera de la diagonal confirman la ortogonalidad de las variables explicativas:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Ejecutemos una serie de regresiones , usando solo la primera variable, luego las dos primeras, y así sucesivamente. Por brevedad y fácil comparación, en cada una solo muestro la línea para la primera variable y la prueba F general:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Observe cómo (a) la importancia de la primera variable apenas cambia, (a ') la primera variable sigue siendo significativa (p <.05) incluso cuando se ajusta para comparaciones múltiples ( por ejemplo , aplique Bonferroni multiplicando el valor p nominal por número de variables explicativas), (b) el coeficiente de la primera variable apenas cambia, pero (c) la importancia general crece exponencialmente, inflando rápidamente a un nivel no significativo.

Interpreto esto como una demostración de que incluir variables explicativas que son en gran medida independientes de la variable dependiente puede "enmascarar" el valor p general de la regresión. Cuando las nuevas variables son ortogonales a las existentes y a la variable dependiente, no cambiarán los valores p individuales. (Los pequeños cambios que se ven aquí se deben a que el error aleatorio agregado yestá, por accidente, ligeramente correlacionado con todas las demás variables). Una lección que se puede extraer de esto es que la parsimonia es valiosa : el uso de tan pocas variables como sea necesario puede fortalecer la importancia de Los resultados.

Estoy no diciendo que esto está sucediendo necesariamente para el conjunto de datos en la pregunta, de la que se ha revelado poco. Pero el conocimiento de que este efecto de enmascaramiento puede suceder debería informar nuestra interpretación de los resultados, así como nuestras estrategias para la selección de variables y la construcción de modelos.

whuber
fuente
+1, estoy de acuerdo con este análisis. FWIW, esta es la explicación que estaba insinuando (quizás no bien) en mi discusión sobre el poder en mi respuesta a la otra pregunta . Tengo 1 pregunta sobre su versión aquí, ¿por qué usa 32 como la media de su término de error? ¿Es eso un error tipográfico o es importante de alguna manera?
gung - Restablece a Monica
@gung ¿Dónde ves 32? Si se refiere rnorm(2^p, sd=2), tenga en cuenta que el primer argumento es el número de términos, no la media. La media por defecto es cero y, por lo tanto, no se ha especificado explícitamente.
whuber
rnorm()norte(μ,σ)
@gung Estoy agradecido por la oportunidad de aclarar el código y, por lo tanto, he editado la línea ofensiva.
whuber
11

Con frecuencia, esto sucede cuando tiene un alto grado de colinealidad entre sus variables explicativas. El ANOVA F es una prueba conjunta de que todos los regresores son conjuntamente poco informativos. Cuando sus X contienen información similar, el modelo no puede atribuir el poder explicativo a un regresor u otro, pero su combinación puede explicar gran parte de la variación en la variable de respuesta.

X1y

Dimitriy V. Masterov
fuente
Si la colinealidad es un problema, entonces tendrá errores estándar altos y quizás coeficientes inverosímilmente grandes, quizás incluso con los signos incorrectos. Para asegurarse de que esto es lo que está sucediendo, calcule los factores de inflación de varianza (VIF) después de su regresión. Una regla general razonable es que la colinealidad es un problema si el VIF más grande es mayor que 10. Si es así, realmente tiene dos opciones aquí. Una es volver a especificar el modelo para reducir la dependencia casi lineal al descartar algunas de sus variables. El segundo es obtener una muestra más grande y / o mejor (menos homogénea).
Dimitriy V. Masterov
1
(+1) Esta explicación es buena, pero no es necesario atribuir el fenómeno a la multicolinealidad: la distinción clave es entre información conjunta e información individual. La inclusión de regresores no correlacionados adicionales (que evita cualquier multicolinealidad) reduce el primero y deja el segundo sin cambios.
whuber