En una regresión lineal múltiple, ¿por qué es posible tener un estadístico F altamente significativo (p <.001) pero tener valores p muy altos en todas las pruebas t del regresor?
En mi modelo, hay 10 regresores. Uno tiene un valor p de 0.1 y el resto está por encima de 0.9
Para tratar este problema, consulte la pregunta de seguimiento .
Respuestas:
Como menciona Rob, esto ocurre cuando tiene variables altamente correlacionadas. El ejemplo estándar que uso es predecir el peso del tamaño del zapato. Puede predecir el peso igualmente bien con el tamaño de zapato derecho o izquierdo. Pero juntos no funciona.
Breve ejemplo de simulación
fuente
Se necesita muy poca correlación entre las variables independientes para causar esto.
Para ver por qué, intente lo siguiente:
Dibuje 50 conjuntos de diez vectores con coeficientes en estándar normal.(x1,x2,…,x10)
Calcule para . Esto hace que estándar individualmente normal pero con algunas correlaciones entre ellos.yi=(xi+xi+1)/2–√ i=1,2,…,9 yi
Calcule . Tenga en cuenta que .w=x1+x2+⋯+x10 w=2–√(y1+y3+y5+y7+y9)
Agregue algún error independiente distribuido normalmente a . Con un poco de experimentación descubrí que con funciona bastante bien. Por lo tanto, es la suma de más algún error. También es la suma de algunos de los más el mismo error.w z=w+ε ε∼N(0,6) z xi yi
Consideraremos que son las variables independientes y la variable dependiente.yi z
Aquí hay una matriz de diagrama de dispersión de uno de esos conjuntos de datos, con largo de la parte superior e izquierda y el en orden.z yi
Las correlaciones esperadas entre y son cuando y caso contrario. Las correlaciones realizadas varían hasta el 62%. Aparecen como diagramas de dispersión más ajustados al lado de la diagonal.yi yj 1/2 |i−j|=1 0
Mire la regresión de contra el :z yi
El estadístico F es altamente significativo, pero ninguna de las variables independientes lo es, incluso sin ningún ajuste para las 9.
Para ver lo que está sucediendo, considere la regresión de solo contra el número impar :z yi
Algunas de estas variables son altamente significativas, incluso con un ajuste de Bonferroni. (Hay mucho más que decir al observar estos resultados, pero nos alejaría del punto principal).
La intuición detrás de esto es que depende principalmente de un subconjunto de las variables (pero no necesariamente de un subconjunto único). El complemento de este subconjunto ( ) esencialmente no agrega información sobre debido a las correlaciones, aunque sean leves, con el subconjunto mismo.y 2 , y 4 , y 6 , y 8 zz y2,y4,y6,y8 z
Este tipo de situación surgirá en el análisis de series de tiempo . Podemos considerar los subíndices como tiempos. La construcción de ha inducido una correlación serial de corto alcance entre ellos, al igual que muchas series de tiempo. Debido a esto, perdemos poca información al submuestrear la serie a intervalos regulares.yi
Una conclusión que podemos extraer de esto es que cuando se incluyen demasiadas variables en un modelo, pueden enmascarar las verdaderamente significativas. El primer signo de esto es la estadística F global altamente significativa acompañada de pruebas t no tan significativas para los coeficientes individuales. (Incluso cuando algunas de las variables son significativas individualmente, esto no significa automáticamente que las otras no lo son. Ese es uno de los defectos básicos de las estrategias de regresión gradual: son víctimas de este problema de enmascaramiento). Por cierto, los factores de variación de la inflaciónen el primer rango de regresión de 2.55 a 6.09 con una media de 4.79: justo en el límite de diagnosticar alguna multicolinealidad de acuerdo con las reglas generales más conservadoras; muy por debajo del umbral de acuerdo con otras reglas (donde 10 es un límite superior).
fuente
Multicolinealidad
Múltiples predictores casi significativos
fuente
Esto sucede cuando los predictores están altamente correlacionados. Imagine una situación en la que solo hay dos predictores con una correlación muy alta. Individualmente, ambos también se correlacionan estrechamente con la variable de respuesta. En consecuencia, la prueba F tiene un valor p bajo (está diciendo que los predictores juntos son altamente significativos para explicar la variación en la variable de respuesta). Pero la prueba t para cada predictor tiene un alto valor de p porque después de permitir el efecto del otro predictor no queda mucho por explicar.
fuente
Dijiste que entiendes el problema de las variables que se correlacionan y que la regresión es insignificante mejor; probablemente significa que ha sido condicionado por la mención frecuente de multicolinealidad, pero necesitaría mejorar su comprensión de la geometría de los mínimos cuadrados.
fuente
Una palabra clave para buscar sería "colinealidad" o "multicolinealidad". Esto se puede detectar utilizando diagnósticos como factores de inflación de varianza (VIF) o métodos como se describe en el libro de texto "Diagnóstico de regresión: identificación de datos influyentes y fuentes de colinealidad" por Belsley, Kuh y Welsch. Los VIF son mucho más fáciles de entender, pero no pueden lidiar con la colinealidad que involucra la intercepción (es decir, predictores que son casi constantes por sí mismos o en una combinación lineal); por el contrario, los diagnósticos BKW son mucho menos intuitivos pero pueden lidiar con la colinealidad que involucra La intercepción.
fuente
La respuesta que obtenga depende de la pregunta que haga. Además de los puntos ya mencionados, los valores individuales de los parámetros F y los valores generales del modelo F responden preguntas diferentes, por lo que obtienen respuestas diferentes. He visto que esto sucede incluso cuando los valores individuales de F no son tan significativos, especialmente si el modelo tiene más de 2 o 3 IV. No conozco ninguna forma de combinar los valores p individuales y obtener algo significativo, aunque puede haber una manera.
fuente
Otra cosa a tener en cuenta es que las pruebas de los coeficientes individuales suponen que todos los demás predictores están en el modelo. En otras palabras, cada predictor no es significativo siempre que todos los demás predictores estén en el modelo. Debe haber alguna interacción o interdependencia entre dos o más de sus predictores.
Como alguien más preguntó anteriormente, ¿cómo diagnosticó la falta de multicolinealidad?
fuente
Una forma de entender esto es la geometría de mínimos cuadrados como sugiere @StasK.
Otra es darse cuenta de que significa que X está relacionado con Y cuando se controlan las otras variables, pero no solo. Dices que X se relaciona con una varianza única en Y. Esto es correcto. Sin embargo, la varianza única en Y es diferente de la varianza total. Entonces, ¿qué varianza están eliminando las otras variables?
Sería útil que nos dijeras tus variables.
fuente