¿Cuál es el lado débil de los árboles de decisión?

34

Los árboles de decisión parecen ser un método de aprendizaje automático muy comprensible. Una vez creado, puede ser fácilmente inspeccionado por un humano, lo cual es una gran ventaja en algunas aplicaciones.

¿Cuáles son los lados débiles prácticos de los árboles de decisión?

Łukasz Lew
fuente

Respuestas:

37

Aquí hay una pareja en la que puedo pensar:

  • Pueden ser extremadamente sensibles a pequeñas perturbaciones en los datos: un ligero cambio puede resultar en un árbol drásticamente diferente.
  • Se pueden sobreajustar fácilmente. Esto se puede negar mediante métodos de validación y poda, pero esta es un área gris.
  • Pueden tener problemas de predicción fuera de la muestra (esto está relacionado con que no sean uniformes).

Algunos de estos están relacionados con el problema de la multicolinealidad : cuando dos variables explican lo mismo, un árbol de decisión elegirá con avidez la mejor, mientras que muchos otros métodos los usarán a ambos. Los métodos de conjunto como los bosques aleatorios pueden negar esto en cierta medida, pero se pierde la facilidad de comprensión.

Sin embargo, el mayor problema, al menos desde mi punto de vista, es la falta de un marco probabilístico basado en principios. Muchos otros métodos tienen cosas como intervalos de confianza, distribuciones posteriores, etc., que nos dan una idea de lo bueno que es un modelo. Un árbol de decisión es, en última instancia, una heurística ad hoc, que aún puede ser muy útil (son excelentes para encontrar las fuentes de errores en el procesamiento de datos), pero existe el peligro de que las personas traten el resultado como "el" modelo correcto (de mi experiencia, esto sucede mucho en marketing).

Simon Byrne
fuente
2
Desde un punto de vista de ML, los árboles se pueden probar de la misma manera que cualquier otro clasificador (CV, por ejemplo). Aún así, más bien muestra que ocurrió un sobreajuste pesado ;-) También RF escapa a la multicolinealidad no porque sea un conjunto, sino porque sus árboles son subóptimos.
2
Para obtener un marco probabilístico de árboles de decisión, consulte DTREE (url: datamining.monash.edu.au/software/dtree/index.shtml ) que se basa en el documento "Wallace CS & Patrick JD,` Coding Decision Trees ', Machine Learning , 11, 1993, pp7-22 ".
emakalic
2
Además, ¿no es posible obtener CI (para las predicciones) usando bootstrapping?
Tal Galili
@ Simon Byrne, tengo una pregunta con respecto a su comentario "Sin embargo, el mayor problema, al menos desde mi punto de vista, es la falta de un marco probabilístico basado en principios". Perdone mi ignorancia, pero ¿podría indicarme algunos marcos probabilísticos de principios prácticos (específicamente en el contexto de la clasificación). Estoy muy interesado en esta limitación de los árboles de decisión.
Amelio Vazquez-Reina
2
@AmV, un ejemplo sería la regresión logística: podemos usar el hecho de que cada observación proviene de un binomio para obtener intervalos confiables / creíbles y verificar los supuestos del modelo.
Simon Byrne
23

Una desventaja es que se supone que todos los términos interactúan. Es decir, no puede tener dos variables explicativas que se comporten de forma independiente. Cada variable en el árbol se ve obligada a interactuar con cada variable más arriba en el árbol. Esto es extremadamente ineficiente si hay variables que no tienen o tienen interacciones débiles.

Rob Hyndman
fuente
Sin embargo, me pregunto si esta es una limitación práctica: para una variable que solo influye débilmente en la clasificación, mi intuición es que Tree probablemente no se dividirá en esa variable (es decir, no será un nodo), lo que a su vez significa es invisible en lo que respecta a la clasificación del árbol de decisión.
doug
Estoy hablando de interacciones débiles, no de efectos débiles en la clasificación. Una interacción es una relación entre dos de las variables predictoras.
Rob Hyndman
2
Esto puede ser ineficiente, pero la estructura de árbol puede manejarlo.
Es por eso que dije ineficiente en lugar de parcial o incorrecto. Si tiene un montón de datos, no importa mucho. Pero si ajusta un árbol a unos cientos de observaciones, las interacciones asumidas pueden reducir en gran medida la precisión predictiva.
Rob Hyndman
2
De acuerdo; Solo quería resaltarlo. Aún así, creo que la reducción de la precisión predictiva puede eliminarse mediante el entrenamiento adecuado; en filogenética, el problema similar (codicia) se reduce mediante el escaneo de Monte Carlo del posible espacio arbóreo para encontrar los de mayor probabilidad: no sé si hay un enfoque similar en las estadísticas, probablemente nadie se molestó por este problema. grado.
12

Mi respuesta está dirigida a CART (las implementaciones de C 4.5 / C 5) aunque no creo que se limiten a eso. Supongo que esto es lo que el OP tiene en mente: generalmente es lo que alguien quiere decir cuando dice "Árbol de decisión".

Limitaciones de los árboles de decisión :


Bajo rendimiento

Por "rendimiento" no me refiero a la resolución, sino a la velocidad de ejecución . La razón por la cual es pobre es que necesita 'volver a dibujar el árbol' cada vez que desea actualizar su modelo CART: datos clasificados por un árbol ya capacitado, que luego desea agregar al árbol (es decir, usar como punto de datos de entrenamiento) requiere que comience desde un exceso: las instancias de entrenamiento no se pueden agregar de forma incremental, como pueden hacerlo para la mayoría de los otros algoritmos de aprendizaje supervisados. Quizás la mejor manera de afirmar esto es que los árboles de decisión no se pueden entrenar en modo en línea, sino solo en modo por lotes. Obviamente, no notará esta limitación si no actualiza su clasificador, pero entonces esperaría que vea una caída en la resolución.

Esto es significativo porque, por ejemplo, para los Perceptrones de múltiples capas, una vez que está entrenado, puede comenzar a clasificar los datos; esos datos también se pueden usar para 'ajustar' el clasificador ya entrenado, aunque con árboles de decisión, debe volver a entrenar con todo el conjunto de datos (datos originales utilizados en el entrenamiento más cualquier instancia nueva).


Mala resolución en datos con relaciones complejas entre las variables

Los árboles de decisión se clasifican por evaluación gradual de un punto de datos de clase desconocida, un nodo a la vez, comenzando en el nodo raíz y terminando con un nodo terminal. Y en cada nodo, solo son posibles dos posibilidades (izquierda-derecha), por lo tanto, hay algunas relaciones variables que los árboles de decisión simplemente no pueden aprender.


Prácticamente limitado a la clasificación

Los árboles de decisión funcionan mejor cuando están capacitados para asignar un punto de datos a una clase, preferiblemente una de las pocas clases posibles. No creo haber tenido éxito utilizando un árbol de decisión en modo de regresión (es decir, producción continua, como el precio o los ingresos esperados de por vida). Esta no es una limitación formal o inherente, sino práctica. La mayoría de las veces, los árboles de decisión se utilizan para predecir factores o resultados discretos.


Mala resolución con variables de expectativa continua

Una vez más, en principio, está bien tener variables independientes como "tiempo de descarga" o "número de días desde la compra en línea anterior": simplemente cambie su criterio de división a variación (generalmente es Entropía de información o Impureza de Gini para variables discretas) pero en mi La experiencia Los árboles de decisión rara vez funcionan bien en estos casos. Las excepciones son casos como la "edad del estudiante" que parece continua pero en la práctica el rango de valores es bastante pequeño (particularmente si se informan como enteros).

Doug
fuente
1
+1 para la buena decisión sobre el ángulo de rendimiento, que generalmente no tiene suficiente juego. He visto que los árboles de decisión tienen problemas de rendimiento en varias plataformas de software diseñadas para grandes conjuntos de datos (como SQL Server), al menos en comparación con otros métodos de minería de datos. Esto es aparte del problema de reentrenamiento que mencionaste. Parece empeorar en los casos en que se produce un sobreajuste (aunque eso se puede decir de muchos otros algoritmos de minería).
SQLServerSteve
10

Aquí hay buenas respuestas, pero me sorprende que una cosa no haya sido enfatizada. CART no hace suposiciones de distribución sobre los datos, particularmente la variable de respuesta. En contraste, la regresión OLS (para variables de respuesta continua) y la regresión logística (para ciertas variables de respuesta categóricas), por ejemplo, qué hacer suposiciones fuertes; específicamente, la regresión OLS asume que la respuesta está condicionalmente distribuida normalmente, y la logística asume que la respuesta es binomial o multinomial.

La falta de CART de tales supuestos es una espada de doble filo. Cuando esas suposiciones no están justificadas, esto le da al enfoque una ventaja relativa. Por otro lado, cuando se cumplen esos supuestos, se puede extraer más información de los datos teniendo en cuenta esos hechos. Es decir, los métodos de regresión estándar pueden ser más informativos que CART cuando los supuestos son ciertos.

gung - Restablece a Monica
fuente