¿Cómo es posible obtener un buen modelo de regresión lineal cuando no existe una correlación sustancial entre la salida y los predictores?

17

He entrenado un modelo de regresión lineal, utilizando un conjunto de variables / características. Y el modelo tiene un buen rendimiento. Sin embargo, me he dado cuenta de que no hay una variable con una buena correlación con la variable predicha. ¿Como es posible?

Zaratruta
fuente
3
Estas son excelentes respuestas, pero a la pregunta le faltan muchos detalles que las respuestas se esfuerzan por completar. La mayor pregunta en mi mente es qué quiere decir con "buena correlación".
ACS

Respuestas:

35

Un par de variables puede mostrar una correlación parcial alta (la correlación que explica el impacto de otras variables) pero una correlación marginal baja o incluso cero (correlación por pares).

Lo que significa que la correlación en pares entre una respuesta, y y algún predictor, x puede ser de poco valor para identificar variables adecuadas con un valor "predictivo" (lineal) entre una colección de otras variables.

Considere los siguientes datos:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

La correlación entre y y x es . Si trazo la línea de mínimos cuadrados, es perfectamente horizontal y el R 2 es, naturalmente, va a ser0R2 .0

Pero cuando agrega una nueva variable g, que indica de cuál de los dos grupos provienen las observaciones, x se vuelve extremadamente informativa:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

El de un modelo de regresión lineal con variables tanto de la x y G en que será 1.R2

Gráfico de y vs x que muestra una falta de relación lineal por pares pero con color que indica el grupo;  dentro de cada grupo la relación es perfecta

Es posible que este tipo de cosas suceda con cada una de las variables del modelo: que todas tengan una pequeña correlación por pares con la respuesta, aunque el modelo con todas ellas es muy bueno para predecir la respuesta.

Lectura adicional:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox

Glen_b -Reinstate a Monica
fuente
¿Puede este comportamiento suceder en un verdadero modelo lineal? Aquí, la relación entre el color (g = 0/1) y la respuesta y parece ser no lineal. Sin embargo, lo que puede suceder es que el del modelo sin g puede ser (¿arbitrariamente?) Más bajo que el R 2 del modelo con g . R2gR2g
Vimal
Dios, debería haber mirado el modelo de cerca :) . ¡Rasca esa pregunta! y=x41g
Vimal
Ese fue de hecho el modelo por el cual se creó la respuesta; pero puede ver de inmediato que es lineal simplemente imaginando levantar los puntos azules de una unidad arbitraria (hacia usted desde la superficie de la pantalla, a lo largo de una nueva dirección del eje "g") y ver un plano que atraviesa los seis puntos.
Glen_b -Reinstate Monica
1
En la regresión, las variables X están condicionadas y a menudo pueden controlarse, por lo que la "independencia" generalmente no es lo que se busca. Fuera de los experimentos diseñados, los predictores independientes casi nunca se ven en ningún caso, y si tiene experimentos diseñados, los predictores no son variables aleatorias, por lo que "independencia" (en el sentido estadístico) no es lo que estaría viendo, sino algo como la ortogonalidad mutua, presumiblemente. ...
ctd
1
ctd ... Si realmente significa independencia estadística (mutua / variable-p) de todos los predictores, entonces no obtendrá exactamente coeficientes cero en regresiones univariantes de esa manera, pero tampoco necesita una separación completa como el ejemplo anterior .
Glen_b -Reinstate Monica
2

Supongo que está entrenando un modelo de regresión múltiple, en el que tiene múltiples variables independientes , X 2X1X2 , ..., regresadas en Y. La respuesta simple aquí es una correlación por pares es como ejecutar un modelo de regresión no especificado. Como tal, omitió variables importantes.

Más específicamente, cuando dice "no hay una variable con una buena correlación con la variable pronosticada", parece que está verificando la correlación por pares entre cada variable independiente con la variable dependiente, Y. Esto es posible cuando trae importantes , nueva información y ayuda a aclarar la confusión entre X 1 e Y. Sin embargo, con esa confusión, es posible que no veamos una correlación lineal por pares entre X 1 e Y. También es posible que desee verificar la relación entre la correlación parcial ρ x 1 , y | x 2 y regresión múltiple y = βX2X1X1ρx1,y|x2 . La regresión múltiple tiene una relación más estrecha con la correlación parcial que la correlación por pares, ρ x 1 , y .y=β1X1+β2X2+ϵρx1,y

Ray Yang
fuente
0

XXXXXX=x1,x2...oipicicioi=0cixicioi=0cixiX1X2EX1X2EX1X1X2X2EX1X2YY

Acumulacion
fuente