Aprendí en mi clase de modelos lineales que si dos predictores están correlacionados y ambos están incluidos en un modelo, uno será insignificante. Por ejemplo, suponga que el tamaño de una casa y el número de dormitorios están correlacionados. Al predecir el costo de una casa utilizando estos dos predictores, uno de ellos puede descartarse porque ambos proporcionan mucha información similar. Intuitivamente, esto tiene sentido, pero tengo algunas preguntas más técnicas:
- ¿Cómo se manifiesta este efecto en los valores p de los coeficientes de regresión cuando se incluye solo uno o ambos predictores en el modelo?
- ¿Cómo se ve afectada la varianza de los coeficientes de regresión al incluir ambos predictores en el modelo o simplemente tener uno?
- ¿Cómo sé qué predictor elegirá el modelo para que sea menos significativo?
- ¿De qué manera incluir solo uno o ambos predictores cambia el valor / la variación de mi costo pronosticado?
regression
multiple-regression
p-value
linear-model
multicollinearity
Vivek Subramanian
fuente
fuente
Respuestas:
El tema que está preguntando es la multicolinealidad . Es posible que desee leer algunos de los hilos en CV categorizados bajo la etiqueta de multicolinealidad . La respuesta de @ whuber vinculada anteriormente en particular también vale la pena.
La afirmación de que "si dos predictores están correlacionados y ambos están incluidos en un modelo, uno será insignificante", no es correcta. Si hay un efecto real de una variable, la probabilidad de que la variable sea significativa es una función de varias cosas, como la magnitud del efecto, la magnitud de la varianza del error, la varianza de la variable en sí, la cantidad de datos tienes, y el número de otras variables en el modelo. Si las variables están correlacionadas también es relevante, pero no anula estos hechos. Considere la siguiente demostración simple en
R
:La correlación entre las dos variables es más baja en el primer ejemplo y más alta en el tercero, pero ninguna de las variables es significativa en el primer ejemplo y ambas están en el último. La magnitud de los efectos es idéntica en los tres casos, y las variaciones de las variables y los errores deben ser similares (son estocásticos, pero provienen de poblaciones con la misma variación). El patrón que vemos aquí se debe principalmente a mi manipulación de las s para cada caso.N
El concepto clave que debe comprender para resolver sus preguntas es el factor de inflación de varianza (VIF). El VIF es cuánto es mayor la varianza de su coeficiente de regresión de lo que hubiera sido de otra manera si la variable no hubiera estado completamente correlacionada con todas las demás variables del modelo. Tenga en cuenta que el VIF es un factor multiplicativo, si la variable en cuestión no está correlacionada, el VIF = 1. Una comprensión simple del VIF es la siguiente: podría ajustar un modelo que predice una variable (por ejemplo, ) de todas las demás variables en su modelo (por ejemplo, ) y obtener un múltiple . El VIF para sería . Digamos que el VIF para fueX 2 R 2 X 1 1 / ( 1 - R 2 ) X 1 10 X 1 10 × X 1X1 X2 R2 X1 1/(1−R2) X1 10 (a menudo considerado un umbral para una multicolinealidad excesiva), entonces la varianza de la distribución de muestreo del coeficiente de regresión para sería mayor de lo que hubiera sido si estuviera completamente correlacionado con todas las demás variables del modelo. X1 10× X1
Pensar en lo que sucedería si incluyera ambas variables correlacionadas versus solo una es similar, pero un poco más complicado que el enfoque discutido anteriormente. Esto se debe a que no incluir una variable significa que el modelo usa menos grados de libertad, lo que cambia la varianza residual y todo lo que se calcula a partir de eso (incluida la varianza de los coeficientes de regresión). Además, si la variable no incluida realmente está asociada con la respuesta, la varianza en la respuesta debida a esa variable se incluirá en la varianza residual, haciéndola más grande de lo que sería. Por lo tanto, varias cosas cambian simultáneamente (la variable está correlacionada o no con otra variable y la varianza residual), y el efecto preciso de descartar / incluir la otra variable dependerá de cómo se intercambien.
Armado con una comprensión de la VIF, aquí están las respuestas a sus preguntas:
fuente
Esto es más un comentario, pero quería incluir un gráfico y algo de código.
Creo que la afirmación "si dos predictores están correlacionados y ambos están incluidos en un modelo, uno será insignificante" es falso si quiere decir "solo uno". La significación estadística binaria no se puede utilizar para la selección de variables.
Aquí está mi contraejemplo usando una regresión del porcentaje de grasa corporal en la circunferencia del muslo, el grosor del pliegue de la piel * y la circunferencia del brazo medio:
Como puede ver en la tabla de regresión, todo es insignificante, aunque los valores p varían un poco.
El último comando Stata representa gráficamente la región de confianza para 2 de los coeficientes de regresión (un análogo bidimensional de los intervalos de confianza familiares) junto con las estimaciones puntuales (punto rojo). La elipse de confianza para el grosor del pliegue de la piel y los coeficientes de circunferencia del muslo es larga, estrecha e inclinada, lo que refleja la colinealidad en los regresores. Hay una alta covarianza negativa entre los coeficientes estimados. La elipse cubre partes de los ejes vertical y horizontal, lo que significa que no podemos rechazar las hipótesis individuales de que las s son cero, aunque podemos rechazar la unión nula que ambas son ya que la elipse no cubre el origen. En otras palabras, el muslo y el tríceps son relevantes para la grasa corporal, pero no se puede determinar cuál es el culpable.β
Entonces, ¿cómo sabemos qué predictores serían menos significativos? La variación en un regresor se puede clasificar en dos tipos:
Al estimar los coeficientes de cada regresor, solo se utilizará el primero. La variación común se ignora ya que no se puede asignar, aunque se usa en la predicción y el cálculo de . Cuando hay poca información única, la confianza será baja y las variaciones de coeficientes serán altas. Cuanto mayor sea la multicolinealidad, menor será la variación única y mayores serán las variaciones.R2
* El pliegue de la piel es el ancho de un pliegue de piel que se toma sobre el músculo tríceps y se mide con un calibrador.
fuente
Como señaló @whuber, esta es una pregunta compleja. Sin embargo, la primera oración de tu publicación es una gran simplificación. A menudo ocurre que dos (o más) variables estarán correlacionadas y ambas relacionadas con la variable dependiente. Si son significativos o no depende tanto del tamaño del efecto como del tamaño de la celda.
En su ejemplo, suponga que, para un tamaño de casa dado, la gente prefiere menos habitaciones (al menos en Nueva York, esto no es irrazonable; indicaría edificios más antiguos, paredes más sólidas, etc., y podría ser un marcador para el vecindario). ¡Entonces ambos podrían ser significativos, en direcciones opuestas!
O bien, supongamos que las dos variables son el tamaño de la casa y el vecindario, seguramente se correlacionarían con casas más grandes en vecindarios mejores, pero ambas podrían ser significativas y seguramente estarían relacionadas con el precio de la casa.
Además, usar solo máscaras "correlacionadas" complejidades. Las variables pueden estar fuertemente relacionadas sin correlacionarse.
fuente