Este artículo afirma que en CART, debido a que se realiza una división binaria en una sola covariable en cada paso, todas las divisiones son ortogonales y, por lo tanto, no se consideran las interacciones entre covariables.
Sin embargo, muchas referencias muy serias afirman, por el contrario, que la estructura jerárquica de un árbol garantiza que las interacciones entre los predictores se modelan automáticamente (por ejemplo, este documento y, por supuesto, el Hastie).
¿Quién tiene la razón? ¿Los árboles cultivados en CART capturan interacciones entre variables de entrada?
Respuestas:
fuente
Respuesta corta
Los CART necesitan ayuda para capturar interacciones.
Respuesta larga
Tome el algoritmo codicioso exacto (Chen y Guestrin, 2016):
La media en la hoja será una expectativa condicional, pero cada división en el camino hacia la hoja es independiente de la otra. Si la característica A no importa por sí misma, pero importa en la interacción con la característica B, el algoritmo no se dividirá en la característica A. Sin esta división, el algoritmo no puede prever la división en la característica B, necesaria para generar la interacción.
Con muchas características, regularización y el límite estricto en el número de divisiones, el mismo algoritmo puede omitir interacciones.
Soluciones
Interacciones explícitas como nuevas características
Un ejemplo de Zhang ("Ganar concursos de ciencia de datos", 2015):
Algoritmos de árbol no codiciosos
En la otra pregunta, Simone sugiere algoritmos basados en búsqueda anticipada y árboles de decisión oblicuos .
Un enfoque de aprendizaje diferente.
Algunos métodos de aprendizaje manejan mejor las interacciones.
Aquí hay una tabla de Los elementos del aprendizaje estadístico (línea "Capacidad para extraer combinaciones lineales de características"):
fuente