Digamos que tenemos un problema de clasificación binaria con características principalmente categóricas. Utilizamos algún modelo no lineal (por ejemplo, XGBoost o Random Forests) para aprenderlo.
- ¿Debería preocuparse por la multicolinealidad? ¿Por qué?
- Si la respuesta a lo anterior es verdadera, ¿cómo debería uno luchar contra ella teniendo en cuenta que está utilizando este tipo de modelos no lineales?
Tarde a la fiesta, pero aquí está mi respuesta de todos modos, y es "Sí", uno siempre debe preocuparse por la colinealidad, independientemente de que el modelo / método sea lineal o no, o la tarea principal sea la predicción o clasificación.
Suponga una serie de covariables / características linealmente correlacionadas presentes en el conjunto de datos y Random Forest como método. Obviamente, la selección aleatoria por nodo puede elegir solo (o principalmente) características colineales que pueden / resultarán en una división pobre, y esto puede suceder repetidamente, lo que afecta negativamente el rendimiento.
Ahora, las características colineales pueden ser menos informativas del resultado que las otras características (no colineales) y, como tales, deben considerarse para su eliminación del conjunto de características de todos modos. Sin embargo, suponga que las características están clasificadas en la lista de 'importancia de la característica' producida por RF. Como tal, se mantendrían en el conjunto de datos aumentando innecesariamente la dimensionalidad. Entonces, en la práctica, siempre, como un paso exploratorio (de muchos relacionados), verifico la asociación por pares de las características, incluida la correlación lineal.
fuente
Si el modelo no lineal es un modelo basado en árbol, entonces no debería considerarlo serio. Un modelo de árbol diferente tendrá un método de reparto diferente, como el bosque aleatorio los mantendrá a ambos (porque construyen el árbol de forma independiente y seleccionan al azar la función para cada árbol), pero no tiene ningún efecto sobre el rendimiento de la predicción, incluso si elimina el redundante Pero para xgboost, elegirá a cualquiera de ellos y lo usará hasta la última compilación del árbol.
Se trata solo del significado de la interpretación, por lo que se sugiere eliminar la variable de alta correlación.
fuente
La multicolinealidad es siempre un posible problema. Las variables que son predictores en el modelo afectarán la predicción cuando estén relacionadas linealmente (es decir, cuando esté presente la colinealidad).
fuente