¿Debería preocuparse la multicolinealidad cuando se utilizan modelos no lineales?

13

Digamos que tenemos un problema de clasificación binaria con características principalmente categóricas. Utilizamos algún modelo no lineal (por ejemplo, XGBoost o Random Forests) para aprenderlo.

¿Debería preocuparse por la multicolinealidad? ¿Por qué?
Si la respuesta a lo anterior es verdadera, ¿cómo debería uno luchar contra ella teniendo en cuenta que está utilizando este tipo de modelos no lineales?

classification random-forest multicollinearity xgboost Josh
fuente

7

La multicolinealidad no será un problema para ciertos modelos. Tal como bosque aleatorio o árbol de decisión. Por ejemplo, si tenemos dos columnas idénticas, el árbol de decisión / bosque aleatorio "soltará" automáticamente una columna en cada división. Y el modelo seguirá funcionando bien.

Además, la regularización es una forma de "arreglar" el problema de multicolinealidad. Mi respuesta Los métodos de regularización para la regresión logística dan detalles.

Haitao Du
fuente

55

Creo que esto mejoraría si elaborara exactamente cuál es el problema que se "soluciona" mediante la regularización.

Matthew Drury

2

Tarde a la fiesta, pero aquí está mi respuesta de todos modos, y es "Sí", uno siempre debe preocuparse por la colinealidad, independientemente de que el modelo / método sea lineal o no, o la tarea principal sea la predicción o clasificación.

Suponga una serie de covariables / características linealmente correlacionadas presentes en el conjunto de datos y Random Forest como método. Obviamente, la selección aleatoria por nodo puede elegir solo (o principalmente) características colineales que pueden / resultarán en una división pobre, y esto puede suceder repetidamente, lo que afecta negativamente el rendimiento.

Ahora, las características colineales pueden ser menos informativas del resultado que las otras características (no colineales) y, como tales, deben considerarse para su eliminación del conjunto de características de todos modos. Sin embargo, suponga que las características están clasificadas en la lista de 'importancia de la característica' producida por RF. Como tal, se mantendrían en el conjunto de datos aumentando innecesariamente la dimensionalidad. Entonces, en la práctica, siempre, como un paso exploratorio (de muchos relacionados), verifico la asociación por pares de las características, incluida la correlación lineal.

dnqxt
fuente

Creo que hay casos en que la multicolinealidad se puede ignorar de manera segura, algunos de los casos se discuten aquí: statisticshorizons.com/multicollinearity

Dra. Nisha Arora

0

¿Debería preocuparse por la multicolinealidad? ¿Por qué?

Si el modelo no lineal es un modelo basado en árbol, entonces no debería considerarlo serio. Un modelo de árbol diferente tendrá un método de reparto diferente, como el bosque aleatorio los mantendrá a ambos (porque construyen el árbol de forma independiente y seleccionan al azar la función para cada árbol), pero no tiene ningún efecto sobre el rendimiento de la predicción, incluso si elimina el redundante Pero para xgboost, elegirá a cualquiera de ellos y lo usará hasta la última compilación del árbol.

Si la respuesta a lo anterior es verdadera, ¿cómo debería uno luchar contra ella teniendo en cuenta que está utilizando este tipo de modelos no lineales?

Se trata solo del significado de la interpretación, por lo que se sugiere eliminar la variable de alta correlación.

Wolfe
fuente

-3

La multicolinealidad es siempre un posible problema. Las variables que son predictores en el modelo afectarán la predicción cuando estén relacionadas linealmente (es decir, cuando esté presente la colinealidad).

Michael R. Chernick
fuente

1

Gracias, si (1) el enfoque es el desempeño de la predicción (y no la interpretabilidad) y (2) el modelo no es lineal, ¿le importaría explicar por qué esto todavía puede ser un problema? (¿y cómo se manifestaría exactamente?)

Josh

Estas variables que son predictores en el modelo afectarán la predicción cuando estén relacionadas linealmente (es decir, la colinealidad está presente).

Michael R. Chernick

1

Afectar a la predicción cómo, exactamente? Por cierto, stats.stackexchange.com/a/138082/99274 , coloque algunos enlaces en su respuesta o enfrente la ira de la multitud "estado allí, hecho eso".

Carl

77

Dado que la clasificación está tan estrechamente relacionada con la predicción, y la predicción tiende a no sufrir multicolinealidad, es importante respaldar su argumento de que siempre es un "posible problema", especialmente para los modelos particulares mencionados en la pregunta. ¿Qué tipo de problema sería para la clasificación y por qué?

whuber

12

Estoy bastante seguro de que estás rogando la pregunta. Whuber preguntó por qué la predicción sufre de multicolinealidad, y usted básicamente respondió "La predicción sufre de multicolinealidad porque la predicción sufre de multicolinealidad".

Matthew Drury

¿Debería preocuparse la multicolinealidad cuando se utilizan modelos no lineales?

Respuestas: