¿Existe una explicación intuitiva de por qué la multicolinealidad es un problema en la regresión lineal?

85

La wiki discute los problemas que surgen cuando la multicolinealidad es un problema en la regresión lineal. El problema básico es que los resultados multicolineales en estimaciones de parámetros inestables hacen que sea muy difícil evaluar el efecto de las variables independientes en las variables dependientes.

Entiendo las razones técnicas detrás de los problemas (es posible que no pueda invertir , mal acondicionado etc.) pero estoy buscando una explicación más intuitiva (¿quizás geométrica?) Para este problema.X XXXXX

¿Existe una forma geométrica o quizás alguna otra forma de explicación fácilmente comprensible de por qué la multicolinealidad es problemática en el contexto de la regresión lineal?


fuente
44
Muy buena pregunta. La mejor manera de entender algo es desde múltiples direcciones de explicación.
Tal Galili el
1
Ver también preguntas relacionadas y explicación visual stats.stackexchange.com/q/70899/3277
ttnphns

Respuestas:

89

Considere el caso más simple en el que retrocede contra y y donde y están altamente correlacionados positivamente. A continuación, el efecto de en es difícil de distinguir del efecto de sobre debido a que cualquier aumento en tiende a estar asociada con un aumento en .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Otra forma de ver esto es considerar la ecuación. Si escribimos , entonces el coeficiente es el aumento de por cada unidad de aumento en mientras se mantiene constantePero en la práctica, a menudo es imposible mantener constante y la correlación positiva entre y significa que un aumento unitario en suele ir acompañado de algún aumento en al mismo tiempo.Y=b0+b1X+b2Z+eb1YXZZXZXZ

Una explicación similar pero más complicada es válida para otras formas de multicolinealidad.

Rob Hyndman
fuente
20
+1 El caso extremadamente patológico donde resalta esto aún más. y serían indistinguibles. X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv
1
+1 Me gusta esta respuesta porque una de las preguntas de ayuda más comunes es por qué entonces y . La inferencia tiene que tener en cuenta aportes realistas. b1>0b2<0
muratoa
29

Estaba comiendo sushi una vez y pensé que podría ser una buena demostración intuitiva de problemas mal condicionados. Suponga que desea mostrarle a alguien un avión usando dos palos que se tocan en sus bases.

Probablemente mantendrían los palos ortogonales entre sí. El efecto de cualquier tipo de temblor de sus manos en el avión hace que se tambalee un poco alrededor de lo que esperaba mostrar a la gente, pero después de observarlo por un momento, tienen una buena idea de qué avión tenía la intención de demostrar.

Pero digamos que acercas los extremos de los palos y observas el efecto de tus manos temblorosas. El avión que forma se lanzará mucho más salvajemente. Su audiencia tendrá que mirar más tiempo para tener una buena idea de qué avión está tratando de demostrar.

Snackrifice
fuente
+1 Creo que esto responde más directamente a la pregunta. Porque aunque la multicolinealidad afecta la interpretación. Por qué es un problema en mi humilde opinión es la estabilidad en la estimación.
muratoa
+1 Por publicar este comentario (y solo este comentario en la historia de Stackoverflow) bajo el nombre de usuario Snackrifice.
stackoverflax
19

El enfoque geométrico es considerar el cuadrados proyección menos de sobre el subespacio abarcado por .YX

Digamos que tienes un modelo:

E[Y|X]=β1X1+β2X2

Nuestro espacio de estimación es el plano determinado por los vectores y y el problema es encontrar las coordenadas correspondientes a que describirán el vector , una proyección de mínimos cuadrados de en ese plano.X1X2(β1,β2)Y^Y

Ahora suponga que , es decir, son colineales. Entonces, el subespacio determinado por y es solo una línea y solo tenemos un grado de libertad. Por lo tanto, no podemos determinar dos valores y como se nos solicitó.X1=2X2X1X2β1β2

ars
fuente
2
Voté hace mucho tiempo, pero releyendo su respuesta me recuerda que siempre me gustaron las respuestas de avión a preguntas complejas de Christensen ( j.mp/atRp9w ).
chl
@chl: genial, definitivamente lo comprobaré entonces. :)
ars
14

Dos personas están empujando una roca cuesta arriba. Desea saber qué tanto empuja cada uno de ellos. Suponga que los ve empujarse juntos durante diez minutos y la roca se mueve 10 pies. ¿El primero hizo todo el trabajo y el segundo simplemente lo fingió? ¿O viceversa? O 50-50? Dado que ambas fuerzas están trabajando exactamente al mismo tiempo, no puede separar la fuerza de ninguna de ellas por separado. Todo lo que puedes decir es que su fuerza combinada es de 1 pie por minuto.

Ahora imagine que el primer hombre empuja por un minuto él mismo, luego nueve minutos con el segundo hombre, y un minuto final es solo el segundo hombre empujando. Ahora puede usar estimaciones de fuerzas en el primer y último minuto para calcular la fuerza de cada persona por separado. Aunque todavía están trabajando en gran medida al mismo tiempo, el hecho de que haya un poco de diferencia le permite obtener estimaciones de la fuerza para cada uno.

Si viera a cada hombre empujando independientemente durante diez minutos completos, eso le daría estimaciones más precisas de las fuerzas que si hubiera una gran superposición en las fuerzas.

Dejo como ejercicio que el lector extienda este caso a un hombre empujando cuesta arriba y el otro empujando cuesta abajo (todavía funciona).

La multicolinealidad perfecta le impide estimar las fuerzas por separado; near multicolinearity le ofrece errores estándar más grandes.

Charlie
fuente
6

La forma en que pienso sobre esto es en términos de información. Diga cada uno de y tiene alguna información acerca de . Cuanto más correlacionados y estén entre sí, más el contenido de información sobre de y es similar o superpuesto, hasta el punto de que para perfectamente correlacionado y , realmente es el mismo contenido de información. Si ahora ponemos y en el mismo modelo (de regresión) para explicar , el modelo intenta "distribuir" la información que ( X 2 Y X 1 X 2 Y X 1 X 2 X 1 X 2 X 1 X 2 Y X 1 X 2 Y X 1X1X2YX1X2YX1X2X1X2X1X2YX1 , ) contiene aproximadamente para cada uno de y , de una manera algo arbitraria. No hay una forma realmente buena de distribuir esto, ya que cualquier división de la información todavía lleva a mantener la información total de ( , ) en el modelo (para perfectamente correlacionadas , esto realmente es un caso de no identificabilidad). Esto lleva a estimaciones individuales inestables para los coeficientes individuales de y , aunque si observa los valores pronosticados en muchas ejecuciones y estimaciones de yX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, estos serán bastante estables.

Abhijit
fuente
4

Mi intuición (muy) laica para esto es que el modelo OLS necesita un cierto nivel de "señal" en la variable X para detectarlo, da una predicción "buena" para Y. Si la misma "señal" se extiende sobre muchas X (porque están correlacionados), entonces ninguna de las X correlacionadas puede dar suficiente "prueba" (significación estadística) de que es un predictor real.

Las respuestas (maravillosas) anteriores hacen un gran trabajo al explicar por qué ese es el caso.

Tal Galili
fuente
3

Suponga que dos personas colaboraron y lograron un descubrimiento científico. Es fácil decir sus contribuciones únicas (quién hizo qué) cuando dos son personas totalmente diferentes (una es teórica y la otra es buena para experimentar), mientras que es difícil distinguir sus influencias únicas (coeficientes de regresión) cuando son gemelos actuando de manera similar.

Joven
fuente
2

Si dos regresores están perfectamente correlacionados, sus coeficientes serán imposibles de calcular; Es útil considerar por qué serían difíciles de interpretar si pudiéramos calcularlos . De hecho, esto explica por qué es difícil interpretar variables que no están perfectamente correlacionadas pero que tampoco son verdaderamente independientes.

Suponga que nuestra variable dependiente es el suministro diario de pescado en Nueva York, y nuestras variables independientes incluyen una para determinar si llueve ese día y otra para la cantidad de cebo comprado ese día. De lo que no nos damos cuenta cuando recopilamos nuestros datos es que cada vez que llueve, los pescadores no compran cebo, y cada vez que no lo hace, compran una cantidad constante de cebo. Entonces Bait y Rain están perfectamente correlacionados, y cuando ejecutamos nuestra regresión, no podemos calcular sus coeficientes. En realidad, Bait y Rain probablemente no estén perfectamente correlacionados, pero no quisiéramos incluirlos a ambos como regresores sin limpiarlos de alguna manera de su endogeneidad.

Mitch Flax
fuente
1

Creo que la trampa de variable ficticia ofrece otra posibilidad útil para ilustrar por qué la multicolinealidad es un problema. Recordemos que surge cuando tenemos un conjunto constante y completo de dummies en el modelo. Luego, la suma de los dummies se suma a uno, la constante, por lo que es multicolinealidad.

Por ejemplo, un muñeco para hombres y otro para mujeres:

yi=β0+β1Mani+β2Womani+ui

La interpretación estándar de es el cambio esperado en que surge de cambiar de 0 a 1. Del mismo modo, es el cambio esperado en que surge de cambiar de 0 a 1. Y M a n i β 2 Y W o m a n iβ1YManiβ2YWomani

Pero, ¿qué se supone que representa ...? Es , por lo que el resultado esperado para personas que no son ni hombre ni mujer ... probablemente sea seguro decir que para prácticamente todos los conjuntos de datos que encontrará, eso no es Una pregunta útil para hacer :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Christoph Hanck
fuente