Hace unos días, un psicólogo-investigador mío me contó sobre su método para seleccionar variables al modelo de regresión lineal. Supongo que no es bueno, pero necesito pedirle a alguien más que se asegure. El metodo es:
Observe la matriz de correlación entre todas las variables (incluida la variable dependiente Y) y elija los predictores X, que se correlacionan más con Y.
No mencionó ningún criterio. P: ¿Tenía razón?
[Creo que este método de selección es incorrecto, debido a muchas cosas, como es la teoría que dice qué predictores deberían seleccionarse, o incluso omitir el sesgo variable (OVB).]
regression
correlation
model-selection
Lil'Lobster
fuente
fuente
Respuestas:
Si, por alguna razón, va a incluir solo una variable en su modelo, entonces seleccionar el predictor que tiene la mayor correlación con tiene varias ventajas. De los posibles modelos de regresión con un solo predictor, este modelo es el que tiene el coeficiente de regresión estandarizado más alto y también (dado que R 2 es el cuadrado de r en una regresión lineal simple ) el coeficiente de determinación más alto .y R2 r
Pero no está claro por qué querría restringir su modelo de regresión a un predictor si tiene datos disponibles para varios. Como se menciona en los comentarios, solo mirar las correlaciones no funciona si su modelo puede incluir varias variables. Por ejemplo, a partir de esta matriz de dispersión, podría pensar que los predictores para que debe incluir en su modelo son x 1 (correlación 0.824) y x 2 (correlación 0.782) pero que x 3 (correlación 0.134) no es un predictor útil.y x1 x2 x3
Pero se equivocaría: de hecho, en este ejemplo, depende de dos variables independientes, x 1 y x 3 , pero no directamente en x 2 . Sin embargo, x 2 está altamente correlacionado con x 1 , lo que lleva a una correlación con y también. Mirando la correlación entre y y x 2 de forma aislada, esto podría sugerir que x 2 es un buen predictor de y . Pero una vez que los efectos de x 1 se dividen al incluir x 1y x1 x3 x2 x2 x1 y y x2 x2 y x1 x1 en el modelo, no queda tal relación.
Y aquí hay un ejemplo que es aún peor:
fuente
Puede ejecutar un análisis de regresión gradual y dejar que el software elija las variables en función de los valores de F. También puede mirar el valor R ^ 2 ajustado cuando ejecuta la regresión cada vez, para ver si agrega alguna nueva variable que contribuya a su modelo. Su modelo puede tener el problema de la multicolinealidad si solo utiliza la matriz de correlación y elige variables con una fuerte correlación. ¡Espero que esto ayude!
fuente