¿Puedo simplemente eliminar una de las dos variables predictoras que están altamente correlacionadas linealmente?

18

Usando el coeficiente de correlación de Pearson, tengo varias variables que están altamente correlacionadas ( y para 2 pares de variables que están en mi modelo).ρ=0.978ρ=0.989

La razón por la cual algunas de las variables están altamente correlacionadas es porque una variable se usa en el cálculo para otra variable.

Ejemplo:

B=V/3000 y E=VD

B y tienenEρ=0,989

¿Es posible para mí simplemente "tirar" una de las variables?

TheCloudlessSky
fuente

Respuestas:

26

B y E se derivan de V. B y E claramente no son variables verdaderamente "independientes" entre sí. La variable subyacente que realmente importa aquí es V. Probablemente debería ignorar tanto B como E en este caso y mantener solo V.

En una situación más general, cuando tiene dos variables independientes que están altamente correlacionadas, definitivamente debe eliminar una de ellas porque se encuentra con el enigma de multicolinealidad y los coeficientes de regresión de su modelo de regresión relacionados con las dos variables altamente correlacionadas no serán confiables. Además, en inglés simple si dos variables están tan altamente correlacionadas que obviamente transmitirán casi exactamente la misma información a su modelo de regresión. Pero, al incluir ambos, en realidad estás debilitando el modelo. No está agregando información incremental. En cambio, está infundiendo ruido a su modelo. No es algo bueno

Una forma de mantener variables altamente correlacionadas dentro de su modelo es usar en lugar de regresión un modelo de Análisis de Componentes Principales (PCA). Los modelos PCA están hechos para eliminar la multicolinealidad. La compensación es que terminas con dos o tres componentes principales dentro de tu modelo que a menudo son solo construcciones matemáticas y son prácticamente incomprensibles en términos lógicos. Por lo tanto, la PCA se abandona con frecuencia como método cada vez que tiene que presentar sus resultados a una audiencia externa, como la administración, los reguladores, etc. Los modelos de PCA crean cuadros negros crípticos que son muy difíciles de explicar.

Sympa
fuente
1
(+1) para la explicación de PCA.
steffen
1
Gracias, esta fue una gran explicación. He escuchado y leído sobre PCA, pero esto es para un proyecto final para un curso de posgrado de "regresión" que estoy tomando, y el profesor solo quiere que usemos LR. De todos modos, realmente aprecio la explicación de PCA y probablemente la usaré por diversión.
TheCloudlessSky
3
En ciertas circunstancias, las recomendaciones de esta respuesta no funcionarían. Por ejemplo, ¿qué pasa si la relación verdadera es Y = B + E = V / 3000 + V * D? Entonces, las variables tienen una alta correlación debido a los rangos de V y D en el conjunto de datos, que es (o puede ser) puro accidente, mientras que desechar cualquiera de B o E dará como resultado un modelo incorrecto. En resumen, la "dependencia" no es en general una razón válida para eliminar algunas variables de un modelo; incluir variables fuertemente dependientes no necesariamente "debilita" un modelo; PCA no siempre es la salida.
whuber
@whuber, no estoy seguro de estar de acuerdo con tus comentarios. Creo que la "dependencia" es en general una razón bastante válida para eliminar algunas variables de un modelo de regresión. De lo contrario, sus coeficientes de regresión no pueden ser confiables. En el ejemplo que usa que sería problemático para la regresión, una solución simple es usar la expresión completa (V / 3000 + V * D) como una sola variable.
Sympa
3
En términos más generales, si el modelo es beta1 * (V / 3000) + beta2 * (V D) no puede hacer esto: en otras palabras, su sugerencia supone que conoce una restricción lineal entre los coeficientes. Es cierto que los coeficientes de regresión pueden tener * VIF relativamente grandes o errores estándar, pero con cantidades suficientes de datos, o con observaciones bien elegidas, las estimaciones serán lo suficientemente confiables. Por lo tanto, estamos de acuerdo en que hay un problema y, de hecho, estoy de acuerdo con su solución como una de varias alternativas a considerar . No estoy de acuerdo con que sea tan general y necesario como usted cree que es.
whuber
7

Aquí hay una respuesta desde el punto de vista de un aprendiz de máquina, aunque me temo que los estadísticos reales me golpearán por ello.

¿Es posible para mí simplemente "tirar" una de las variables?

Bueno, la pregunta es qué tipo de modelo quieres usar para la predicción. Depende, por ejemplo, de ...

  • ¿Puede el modelo con predictores correlacionados? Por ejemplo, aunque NaiveBayes teóricamente tiene problemas con variables correlacionadas, los experimentos han demostrado que aún puede funcionar bien.
  • ¿Cómo procesa el modelo las variables predictoras? Por ejemplo, la diferencia entre B y V se normalizará en una estimación de densidad de probabilidad, tal vez la misma para E y V, dependiendo de la varianza de D (como ya dijo la euforia)
  • ¿Qué combinación de uso de B y E (uno, ninguno, ambos) ofrece el mejor resultado, estimado por una validación cruzada consciente + una prueba en un conjunto de reserva?

A veces, los estudiantes de máquinas incluso realizamos la optimización genética para encontrar la mejor combinación aritmética de un conjunto de predictores.

steffen
fuente
7

B es una transformación lineal de V. E representa una interacción entre V y D. ¿Ha considerado especificar un modelo que sea Y = Intercepción + V + D + V: D? Como sugiere @ euphoria83, parece probable que haya poca variación en D, por lo que es posible que no resuelva su problema; sin embargo, al menos debería aclarar las contribuciones independientes de V y D. Asegúrese de centrar tanto V como D de antemano.

russellpierce
fuente
44
+1: Esta sugerencia no solo es un buen enfoque para el problema en cuestión, sino que muestra que descartar variables no siempre es el enfoque correcto (o incluso un buen) para resolver problemas de colinealidad.
whuber
0

Si D no es una constante, entonces B y E son efectivamente dos variables diferentes debido a las variaciones en D. La alta correlación indica que D es prácticamente constante a lo largo de los datos de entrenamiento. Si ese es el caso, puede descartar B o E.

euforia83
fuente
1
re=norte12norte2norte2
Si descarta B o E y los trata como equivalentes, entonces está afirmando implícitamente que V es todo lo que realmente importa. Si ese es el caso, sería mejor retener B en el modelo ya que su interpretación es clara. Además, si conserva E, pero D en realidad tiene una variación limitada, la validez de la interpretación de sus resultados sería aún más sospechosa (de lo habitual) para diferentes valores de D.
russellpierce