¿Es la suma de dos árboles de decisión equivalentes a un solo árbol de decisión?

15

Supongamos que tenemos dos árboles de regresión (árbol A y árbol B) que asignan la entrada a la salida . Sea para el árbol A y para el árbol B. Cada árbol usa divisiones binarias, con hiperplanos como funciones de separación.XRrey^Ry^=FUN(X)Fsi(X)

Ahora, supongamos que tomamos una suma ponderada de las salidas del árbol:

FC(X)=wUN FUN(X)+wsi Fsi(X)

¿Es la función equivalente a un solo árbol de regresión (más profundo)? FCSi la respuesta es "a veces", ¿en qué condiciones?

Idealmente, me gustaría permitir hiperplanos oblicuos (es decir, divisiones realizadas en combinaciones lineales de características). Pero, suponiendo que las divisiones de una sola característica podrían estar bien si esa es la única respuesta disponible.

Ejemplo

Aquí hay dos árboles de regresión definidos en un espacio de entrada 2D:

ingrese la descripción de la imagen aquí

La figura muestra cómo cada árbol divide el espacio de entrada y la salida de cada región (codificada en escala de grises). Los números coloreados indican regiones del espacio de entrada: 3,4,5,6 corresponden a nodos de hoja. 1 es la unión de 3 y 4, etc.

Ahora supongamos que promediamos la salida de los árboles A y B:

ingrese la descripción de la imagen aquí

El resultado promedio se representa a la izquierda, con los límites de decisión de los árboles A y B superpuestos. En este caso, es posible construir un único árbol más profundo cuya salida sea equivalente al promedio (trazado a la derecha). Cada nodo corresponde a una región de espacio de entrada que puede construirse a partir de las regiones definidas por los árboles A y B (indicados por números coloreados en cada nodo; varios números indican la intersección de dos regiones). Tenga en cuenta que este árbol no es único: podríamos haber comenzado a construir desde el árbol B en lugar del árbol A.

Este ejemplo muestra que existen casos en los que la respuesta es "sí". Me gustaría saber si esto siempre es cierto.

usuario20160
fuente
2
Hmm .. Si ese fuera el caso, ¿por qué entrenaríamos un bosque al azar? (Porque claramente la combinación lineal de 500 árboles se puede volver a expresar como 499 sumas ponderadas por pares de 500 árboles) Buena pregunta, +1.
usεr11852 dice Reinstate Monic
¡interesante pregunta! Supongo que el espacio de hipótesis de los árboles de decisión y los conjuntos de árboles de decisión (refuerzo, combinación lineal de árboles) es el mismo. En espera de una respuesta ..
Laksan Nathan
@ usεr11852 ¿Quizás porque usar un solo árbol muy grande en lugar de bosque es mucho más lento? Al igual que en las redes neuronales, las redes de capa oculta ya pueden aproximarse a todas las funciones continuas, pero agregar capas hace que la red sea más rápida. No digo que este sea el caso aquí, pero podría serlo.
Harto Saarinen
1
@HartoSaarinen: Esta es una forma interesante de pensar sobre esto, pero sospecho que no es fácil. Se acepta que los árboles muy profundos pueden adaptarse demasiado y generalizarse mal (sus predicciones también son bastante inestables). Además (con respecto a las consideraciones de velocidad) los árboles más profundos requieren exponencialmente más divisiones y, por lo tanto, más tiempo de entrenamiento. (Un árbol de profundidad 10 tiene como máximo 1023 divisiones pero un árbol de profundidad 20, 1048575 divisiones. ¡Mucho más trabajo!)
usεr11852 dice Reinstate Monic
1
@ usεr11852 Estoy de acuerdo en que podría ser totalmente falso y la respuesta podría ser algo totalmente diferente. Esto es lo que hace que el campo sea tan interesante en este momento, ¡muchas cosas por descubrir!
Harto Saarinen

Respuestas:

6

Sí, la suma ponderada de un árbol de regresión es equivalente a un solo árbol de regresión (más profundo).

Aprobador universal de funciones

Un árbol de regresión es un aproximador de función universal (véase, por ejemplo, teoría ). La mayoría de las investigaciones sobre aproximaciones de funciones universales se realizan en redes neuronales artificiales con una capa oculta (lea este excelente blog). Sin embargo, la mayoría de los algoritmos de aprendizaje automático son aproximaciones de funciones universales.

Ser un aproximador de función universal significa que cualquier función arbitraria puede representarse aproximadamente. Por lo tanto, no importa cuán compleja se vuelva la función, una aproximación de función universal puede representarla con cualquier precisión deseada. En el caso de un árbol de regresión, puede imaginar uno infinitamente profundo. Este árbol infinitamente profundo puede asignar cualquier valor a cualquier punto en el espacio.

Como una suma ponderada de un árbol de regresión es otra función arbitraria, existe otro árbol de regresión que representa esa función.

Un algoritmo para crear tal árbol

T1T2T2T1T1T2

El siguiente ejemplo muestra dos árboles simples que se agregan con un peso de 0.5. Tenga en cuenta que nunca se alcanzará un nodo, porque no existe un número menor que 3 y mayor que 5. Esto indica que estos árboles se pueden mejorar, pero no los invalida.

ingrese la descripción de la imagen aquí

¿Por qué usar algoritmos más complejos?

@ Usεr11852 planteó una pregunta adicional interesante en los comentarios: ¿por qué usaríamos algoritmos de refuerzo (o de hecho cualquier algoritmo de aprendizaje automático complejo) si cada función se puede modelar con un árbol de regresión simple?

Los árboles de regresión pueden representar cualquier función, pero ese es solo un criterio para un algoritmo de aprendizaje automático. Otra propiedad importante es qué tan bien se generalizan. Los árboles de regresión profunda son propensos al sobreajuste, es decir, no se generalizan bien. Un bosque aleatorio promedia muchos árboles profundos para evitar esto.

Pieter
fuente