He entrenado un modelo de regresión lineal, utilizando un conjunto de variables / características. Y el modelo tiene un buen rendimiento. Sin embargo, me he dado cuenta de que no hay una variable con una buena correlación con la variable predicha. ¿Como es posible?
17
Respuestas:
Un par de variables puede mostrar una correlación parcial alta (la correlación que explica el impacto de otras variables) pero una correlación marginal baja o incluso cero (correlación por pares).
Lo que significa que la correlación en pares entre una respuesta, y y algún predictor, x puede ser de poco valor para identificar variables adecuadas con un valor "predictivo" (lineal) entre una colección de otras variables.
Considere los siguientes datos:
La correlación entre y y x es . Si trazo la línea de mínimos cuadrados, es perfectamente horizontal y el R 2 es, naturalmente, va a ser0 R2 .0
Pero cuando agrega una nueva variable g, que indica de cuál de los dos grupos provienen las observaciones, x se vuelve extremadamente informativa:
El de un modelo de regresión lineal con variables tanto de la x y G en que será 1.R2
Es posible que este tipo de cosas suceda con cada una de las variables del modelo: que todas tengan una pequeña correlación por pares con la respuesta, aunque el modelo con todas ellas es muy bueno para predecir la respuesta.
Lectura adicional:
https://en.wikipedia.org/wiki/Omitted-variable_bias
https://en.wikipedia.org/wiki/Simpson%27s_paradox
fuente
Supongo que está entrenando un modelo de regresión múltiple, en el que tiene múltiples variables independientes , X 2X1 X2 , ..., regresadas en Y. La respuesta simple aquí es una correlación por pares es como ejecutar un modelo de regresión no especificado. Como tal, omitió variables importantes.
Más específicamente, cuando dice "no hay una variable con una buena correlación con la variable pronosticada", parece que está verificando la correlación por pares entre cada variable independiente con la variable dependiente, Y. Esto es posible cuando trae importantes , nueva información y ayuda a aclarar la confusión entre X 1 e Y. Sin embargo, con esa confusión, es posible que no veamos una correlación lineal por pares entre X 1 e Y. También es posible que desee verificar la relación entre la correlación parcial ρ x 1 , y | x 2 y regresión múltiple y = βX2 X1 X1 ρx1,y|x2 . La regresión múltiple tiene una relación más estrecha con la correlación parcial que la correlación por pares, ρ x 1 , y .y=β1X1+β2X2+ϵ ρx1,y
fuente
fuente