¿Por qué es posible obtener estadística F significativa (p <.001) pero pruebas t de regresor no significativas?

70

En una regresión lineal múltiple, ¿por qué es posible tener un estadístico F altamente significativo (p <.001) pero tener valores p muy altos en todas las pruebas t del regresor?

En mi modelo, hay 10 regresores. Uno tiene un valor p de 0.1 y el resto está por encima de 0.9

Para tratar este problema, consulte la pregunta de seguimiento .

hypothesis-testing regression t-test multicollinearity Ηλίας
fuente

2

¿La constante también es insignificante? ¿Cuántos casos están involucrados? Cuantas variables

whuber

¿Cómo se diagnosticó la multicolinealidad? Existen muchos métodos, algunos son más informativos que otros. Cuanto más nos diga, mejor podrá responder la comunidad.

StasK

3

Esta pregunta se ha convertido en una pregunta frecuente. Algunas de las respuestas aquí se fusionaron a partir de hilos sustancialmente similares.

whuber

3

Vea también aquí: ¿cómo puede una regresión ser significativa pero todos los predictores no son significativos? Y para una discusión del caso opuesto, vea aquí: prueba t significativa versus estadística F no significativa .

gung - Restablece a Monica

Tuve el mismo problema y ninguna de las respuestas anteriores podría ayudarme. Ahora sé la respuesta (al menos a mi problema): el valor F del modelo 2 puede ser significativo, porque obtuviste la misma 'constante' (variable) que en el modelo 1 (cuyo valor F también es significativo). Tienes que mirar la tabla llamada 'Resumen del modelo' en la columna 'Sig. F Change 'para ver si el cambio en R al cuadrado es significativo (para el modelo 2). Si ese es significativo, los valores b también deberían ser significativos. Puedes ignorar totalmente el valor F.

53

Como menciona Rob, esto ocurre cuando tiene variables altamente correlacionadas. El ejemplo estándar que uso es predecir el peso del tamaño del zapato. Puede predecir el peso igualmente bien con el tamaño de zapato derecho o izquierdo. Pero juntos no funciona.

Breve ejemplo de simulación

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))

csgillespie
fuente

9

Es interesante e importante notar que ambos modelos predicen igualmente bien, en este caso. Las altas correlaciones entre los predictores no son necesariamente un problema para la predicción. La multicolinealidad es solo un problema cuando 1) los analistas intentan interpretar inapropiadamente coeficientes de regresión múltiple; 2) el modelo no es estimable; y 3) los SE están inflados y los coeficientes son inestables.

Brett

Entiendo que las dos variables están altamente correlacionadas entre sí, por lo tanto, el resultado de la prueba t no es significativo, mientras que el resultado de la prueba F es significativo. ¿Pero cómo sucede esto? Quiero decir, ¿cuál es la razón que subyace a este hecho?

yue86231

105

Se necesita muy poca correlación entre las variables independientes para causar esto.

Para ver por qué, intente lo siguiente:

Dibuje 50 conjuntos de diez vectores con coeficientes en estándar normal. $(x_1, x_2, \ldots, x_{10})$
Calcule para . Esto hace que estándar individualmente normal pero con algunas correlaciones entre ellos. $y_i = (x_i + x_{i+1})/\sqrt{2}$ $i = 1, 2, \ldots, 9$ $y_i$
Calcule . Tenga en cuenta que . $w = x_1 + x_2 + \cdots + x_{10}$ $w = \sqrt{2}(y_1 + y_3 + y_5 + y_7 + y_9)$
Agregue algún error independiente distribuido normalmente a . Con un poco de experimentación descubrí que con funciona bastante bien. Por lo tanto, es la suma de más algún error. También es la suma de algunos de los más el mismo error. $w$ $z = w + \varepsilon$ $\varepsilon \sim N(0, 6)$ $z$ $x_i$ $y_i$

Consideraremos que son las variables independientes y la variable dependiente. $y_i$ $z$

Aquí hay una matriz de diagrama de dispersión de uno de esos conjuntos de datos, con largo de la parte superior e izquierda y el en orden. $z$ $y_i$

Matriz de diagrama de dispersión

Las correlaciones esperadas entre y son cuando y caso contrario. Las correlaciones realizadas varían hasta el 62%. Aparecen como diagramas de dispersión más ajustados al lado de la diagonal. $y_i$ $y_j$ $1/2$ $|i-j|=1$ $0$

Mire la regresión de contra el : $z$ $y_i$

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

El estadístico F es altamente significativo, pero ninguna de las variables independientes lo es, incluso sin ningún ajuste para las 9.

Para ver lo que está sucediendo, considere la regresión de solo contra el número impar : $z$ $y_i$

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Algunas de estas variables son altamente significativas, incluso con un ajuste de Bonferroni. (Hay mucho más que decir al observar estos resultados, pero nos alejaría del punto principal).

La intuición detrás de esto es que depende principalmente de un subconjunto de las variables (pero no necesariamente de un subconjunto único). El complemento de este subconjunto ( ) esencialmente no agrega información sobre debido a las correlaciones, aunque sean leves, con el subconjunto mismo. $z$ $y_2, y_4, y_6, y_8$ $z$

Este tipo de situación surgirá en el análisis de series de tiempo . Podemos considerar los subíndices como tiempos. La construcción de ha inducido una correlación serial de corto alcance entre ellos, al igual que muchas series de tiempo. Debido a esto, perdemos poca información al submuestrear la serie a intervalos regulares. $y_i$

Una conclusión que podemos extraer de esto es que cuando se incluyen demasiadas variables en un modelo, pueden enmascarar las verdaderamente significativas. El primer signo de esto es la estadística F global altamente significativa acompañada de pruebas t no tan significativas para los coeficientes individuales. (Incluso cuando algunas de las variables son significativas individualmente, esto no significa automáticamente que las otras no lo son. Ese es uno de los defectos básicos de las estrategias de regresión gradual: son víctimas de este problema de enmascaramiento). Por cierto, los factores de variación de la inflaciónen el primer rango de regresión de 2.55 a 6.09 con una media de 4.79: justo en el límite de diagnosticar alguna multicolinealidad de acuerdo con las reglas generales más conservadoras; muy por debajo del umbral de acuerdo con otras reglas (donde 10 es un límite superior).

whuber
fuente

55

Gran respuesta. Un plus 1 de mi parte. Me hubiera gustado darle más.

Michael Chernick

41

Multicolinealidad

Como se observa, y como se ha discutido en esta pregunta anterior , los altos niveles de multicolinealidad son una de las principales causas de un estadísticamente significativo pero predictores estadísticamente no significativos. $R^2$
Por supuesto, la multicolinealidad no se trata solo de un umbral absoluto. Los errores estándar en los coeficientes de regresión aumentarán a medida que aumenten las correlaciones con el predictor focal.

Múltiples predictores casi significativos

Incluso si no tuviera multicolinealidad, aún puede obtener predictores no significativos y un modelo significativo general si dos o más predictores individuales son cercanos a significativos y, por lo tanto, colectivamente, la predicción general supera el umbral de significancia estadística. Por ejemplo, usando un alfa de .05, si tuviera dos predictores con valores p de .06 y .07, entonces no me sorprendería si el modelo general tuviera un p <.05.

Jeromy Anglim
fuente

Buena respuesta concisa. Para agregar a esto, sugeriría perturbar los datos (o eliminar un predictor) y ver si hay un cambio notable en los coeficientes de la regresión. Por ejemplo, busque cambios en los signos.

Mustafa S Eisa

38

Esto sucede cuando los predictores están altamente correlacionados. Imagine una situación en la que solo hay dos predictores con una correlación muy alta. Individualmente, ambos también se correlacionan estrechamente con la variable de respuesta. En consecuencia, la prueba F tiene un valor p bajo (está diciendo que los predictores juntos son altamente significativos para explicar la variación en la variable de respuesta). Pero la prueba t para cada predictor tiene un alto valor de p porque después de permitir el efecto del otro predictor no queda mucho por explicar.

Rob Hyndman
fuente

Hola Rob, perdón por molestarte. Leí su respuesta (porque estoy enfrentando la situación de la pregunta en este momento) pero no puedo entender lo que quiere decir al decir "después de permitir el efecto del otro predictor, no queda mucho por explicar". ¿Puedo pedirte que me expliques eso? Muchas gracias.

yue86231

1

@ yue86231 Significa que aunque tenemos un valor p para cada predictor, no podemos interpretar cada valor p de forma aislada. Cada prueba t predictiva solo puede mostrar la importancia de una variable después de tener en cuenta la varianza explicada por todas las demás variables. Los coeficientes de regresión lineal y el error estándar se producen al mismo tiempo, por así decirlo, y los dos predictores reducen la importancia mutua.

Robert Kubrick

11

$X_1 \sim N(0,1)$ $X_2 = a X_1 + \delta$ $Y = bX_1 + cX_2 + \epsilon$ $\delta$ $\epsilon$ $X_1$ $N(0,1)$

C o v (X_{2}, Y) = E [(a X_{1} + δ) (b X_{1} + c X_{2} + ϵ)] = E [(a X_{1} + δ) ({b + a c} X_{1} + c δ + ϵ)] = a (b + a c) + c

${\rm Cov}(X_2,Y) = {\rm E}[(aX_1+\delta)(bX_1+cX_2+\epsilon)]={\rm E}[(aX_1+\delta)(\{b+ac\}X_1+c\delta+\epsilon)]=a(b+ac)+c$

$a=1$ $b=2$ $c=-1$

Dijiste que entiendes el problema de las variables que se correlacionan y que la regresión es insignificante mejor; probablemente significa que ha sido condicionado por la mención frecuente de multicolinealidad, pero necesitaría mejorar su comprensión de la geometría de los mínimos cuadrados.

StasK
fuente

10

Una palabra clave para buscar sería "colinealidad" o "multicolinealidad". Esto se puede detectar utilizando diagnósticos como factores de inflación de varianza (VIF) o métodos como se describe en el libro de texto "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad" por Belsley, Kuh y Welsch. Los VIF son mucho más fáciles de entender, pero no pueden lidiar con la colinealidad que involucra la intercepción (es decir, predictores que son casi constantes por sí mismos o en una combinación lineal); por el contrario, los diagnósticos BKW son mucho menos intuitivos pero pueden lidiar con la colinealidad que involucra La intercepción.

S. Kolassa - Restablece a Monica
fuente

9

La respuesta que obtenga depende de la pregunta que haga. Además de los puntos ya mencionados, los valores individuales de los parámetros F y los valores generales del modelo F responden preguntas diferentes, por lo que obtienen respuestas diferentes. He visto que esto sucede incluso cuando los valores individuales de F no son tan significativos, especialmente si el modelo tiene más de 2 o 3 IV. No conozco ninguna forma de combinar los valores p individuales y obtener algo significativo, aunque puede haber una manera.

Peter Flom - Restablece a Monica
fuente

2

(-1) Sí, el póster original señala que él / ella también lo ha visto suceder. La pregunta era qué son exactamente algunas cosas que pueden causar esto además de la colinealidad y no veo cómo es una respuesta.

Macro

44

@Macro El voto negativo parece un poco duro, porque hay una observación útil y válida en esta respuesta: las pruebas de significación general y de significación variable individual "responden preguntas diferentes". Es cierto que es cualitativo, pero no más que la primera respuesta con muchos votos positivos; y a esa respuesta agrega algo de intuición válida, posiblemente haciéndola una mejora sobre esa respuesta.

Whuber

1

Nunca dije que no había información válida o intuición proporcionada por esta respuesta. Si tuviera una buena respuesta para esta pregunta, ya habría respondido, es una pregunta difícil, solo decía que esta respuesta no parece responder a la pregunta en ningún sentido de la palabra.

Macro

9

Otra cosa a tener en cuenta es que las pruebas de los coeficientes individuales suponen que todos los demás predictores están en el modelo. En otras palabras, cada predictor no es significativo siempre que todos los demás predictores estén en el modelo. Debe haber alguna interacción o interdependencia entre dos o más de sus predictores.

Como alguien más preguntó anteriormente, ¿cómo diagnosticó la falta de multicolinealidad?

Dave Kincaid
fuente

4

Una forma de entender esto es la geometría de mínimos cuadrados como sugiere @StasK.

Otra es darse cuenta de que significa que X está relacionado con Y cuando se controlan las otras variables, pero no solo. Dices que X se relaciona con una varianza única en Y. Esto es correcto. Sin embargo, la varianza única en Y es diferente de la varianza total. Entonces, ¿qué varianza están eliminando las otras variables?

Sería útil que nos dijeras tus variables.

Peter Flom - Restablece a Monica
fuente

¿Por qué es posible obtener estadística F significativa (p <.001) pero pruebas t de regresor no significativas?

Respuestas:

Multicolinealidad

Múltiples predictores casi significativos