¿Los árboles CART capturan interacciones entre predictores?

9

Este artículo afirma que en CART, debido a que se realiza una división binaria en una sola covariable en cada paso, todas las divisiones son ortogonales y, por lo tanto, no se consideran las interacciones entre covariables.

Sin embargo, muchas referencias muy serias afirman, por el contrario, que la estructura jerárquica de un árbol garantiza que las interacciones entre los predictores se modelan automáticamente (por ejemplo, este documento y, por supuesto, el Hastie).

¿Quién tiene la razón? ¿Los árboles cultivados en CART capturan interacciones entre variables de entrada?

Antoine
fuente
La falla en el argumento es que las divisiones se hacen en subconjuntos de covariables definidas por divisiones realizadas previamente.
@mbq, por lo que las nuevas divisiones son condicionales con respecto a las divisiones anteriores ... Ya veo ... Supongo que estaba teniendo problemas para comprender que "condicionado por una división previa realizada en un predictor dado" era equivalente a "interactuar con este predictor "...
Antoine

Respuestas:

12

X1X2X1YX2

ingrese la descripción de la imagen aquí

X1X2

TrynnaDoStat
fuente
2

Respuesta corta

Los CART necesitan ayuda para capturar interacciones.

Respuesta larga

Tome el algoritmo codicioso exacto (Chen y Guestrin, 2016):

El algoritmo codicioso exacto

La media en la hoja será una expectativa condicional, pero cada división en el camino hacia la hoja es independiente de la otra. Si la característica A no importa por sí misma, pero importa en la interacción con la característica B, el algoritmo no se dividirá en la característica A. Sin esta división, el algoritmo no puede prever la división en la característica B, necesaria para generar la interacción.

x1,x2y=XOR(x1,x2)x1x2XOR

Con muchas características, regularización y el límite estricto en el número de divisiones, el mismo algoritmo puede omitir interacciones.

Soluciones

Interacciones explícitas como nuevas características

Un ejemplo de Zhang ("Ganar concursos de ciencia de datos", 2015):

Zhang sobre interacciones

Algoritmos de árbol no codiciosos

En la otra pregunta, Simone sugiere algoritmos basados ​​en búsqueda anticipada y árboles de decisión oblicuos .

Un enfoque de aprendizaje diferente.

Algunos métodos de aprendizaje manejan mejor las interacciones.

Aquí hay una tabla de Los elementos del aprendizaje estadístico (línea "Capacidad para extraer combinaciones lineales de características"):

Comparación de métodos de aprendizaje.

Anton Tarasenko
fuente