B y E se derivan de V. B y E claramente no son variables verdaderamente "independientes" entre sí. La variable subyacente que realmente importa aquí es V. Probablemente debería ignorar tanto B como E en este caso y mantener solo V.
En una situación más general, cuando tiene dos variables independientes que están altamente correlacionadas, definitivamente debe eliminar una de ellas porque se encuentra con el enigma de multicolinealidad y los coeficientes de regresión de su modelo de regresión relacionados con las dos variables altamente correlacionadas no serán confiables. Además, en inglés simple si dos variables están tan altamente correlacionadas que obviamente transmitirán casi exactamente la misma información a su modelo de regresión. Pero, al incluir ambos, en realidad estás debilitando el modelo. No está agregando información incremental. En cambio, está infundiendo ruido a su modelo. No es algo bueno
Una forma de mantener variables altamente correlacionadas dentro de su modelo es usar en lugar de regresión un modelo de Análisis de Componentes Principales (PCA). Los modelos PCA están hechos para eliminar la multicolinealidad. La compensación es que terminas con dos o tres componentes principales dentro de tu modelo que a menudo son solo construcciones matemáticas y son prácticamente incomprensibles en términos lógicos. Por lo tanto, la PCA se abandona con frecuencia como método cada vez que tiene que presentar sus resultados a una audiencia externa, como la administración, los reguladores, etc. Los modelos de PCA crean cuadros negros crípticos que son muy difíciles de explicar.
Aquí hay una respuesta desde el punto de vista de un aprendiz de máquina, aunque me temo que los estadísticos reales me golpearán por ello.
¿Es posible para mí simplemente "tirar" una de las variables?
Bueno, la pregunta es qué tipo de modelo quieres usar para la predicción. Depende, por ejemplo, de ...
A veces, los estudiantes de máquinas incluso realizamos la optimización genética para encontrar la mejor combinación aritmética de un conjunto de predictores.
fuente
B es una transformación lineal de V. E representa una interacción entre V y D. ¿Ha considerado especificar un modelo que sea Y = Intercepción + V + D + V: D? Como sugiere @ euphoria83, parece probable que haya poca variación en D, por lo que es posible que no resuelva su problema; sin embargo, al menos debería aclarar las contribuciones independientes de V y D. Asegúrese de centrar tanto V como D de antemano.
fuente
Si D no es una constante, entonces B y E son efectivamente dos variables diferentes debido a las variaciones en D. La alta correlación indica que D es prácticamente constante a lo largo de los datos de entrenamiento. Si ese es el caso, puede descartar B o E.
fuente