¿Alguien puede sugerir cuál es la etapa correcta para eliminar las variables correlacionadas antes de la ingeniería de características o después de la ingeniería de características?
¿Alguien puede sugerir cuál es la etapa correcta para eliminar las variables correlacionadas antes de la ingeniería de características o después de la ingeniería de características?
No desea eliminar todas las variables correlacionadas. Solo cuando la correlación es tan fuerte que no transmiten información adicional. Esto es tanto una función de la fuerza de la correlación, la cantidad de datos que tiene y si alguna pequeña diferencia entre las variables correlacionadas le dice algo sobre el resultado, después de todo.
Los dos primeros que puede ver antes de hacer cualquier modelo, el último no. Por lo tanto, puede ser muy razonable eliminar las variables en función de la combinación de las dos primeras consideraciones (es decir, incluso si las variables adicionales pueden, en principio, contener alguna información útil, no podría saber dada la fuerza de la correlación y la cantidad de datos tienes) antes de hacer cualquier modelado / ingeniería de características. El punto final en realidad solo se puede evaluar después de hacer algunos modelos.
Extraño que nadie más haya mencionado la interpretabilidad .
Si todo lo que le preocupa es el rendimiento , entonces no tiene sentido eliminar dos variables correlacionadas, a menos que correlación = 1 o -1, en cuyo caso una de las variables es redundante.
Pero si le preocupa la interpretabilidad, entonces podría tener sentido eliminar una de las variables, incluso si la correlación es leve. Esto es particularmente cierto para los modelos lineales. Uno de los supuestos de la regresión lineal es la falta de multicolinealidad perfecta en los predictores.
Si A está correlacionado con B, entonces no puede interpretar los coeficientes ni de A ni de B. Para ver por qué, imagine el caso extremo cuando A = B (correlación perfecta). Entonces, el modelo y = 100 * A + 50 * B es el mismo que el modelo y = 5 * A + 10 * B o y = -2000 * A + 4000 * B. Existen múltiples equilibrios en las posibles soluciones para el problema de minimización de mínimos cuadrados, por lo tanto, tampoco puede "confiar".
Cosas similares pueden suceder con otros modelos. Por ejemplo, si A está muy correlacionado con B, entonces si el árbol de decisión elige A el doble de veces que B, entonces no puede decir que A es más importante que B. Si vuelve a entrenar el modelo, podría haber sucedido lo contrario.
No importa. Pero por eficiencia antes de la ingeniería de características.
fuente
Determine la covarianza y haga su trabajo inicial con el conjunto más alto.
fuente