¿Pueden los árboles de regresión predecir continuamente?

11

Supongamos que tengo una función suave como F(X,y)=X2+y2 . Tengo un conjunto de entrenamiento y, por supuesto, no sé f, aunque puedo evaluar f donde quiera.re{((X,y),F(X,y))El |(X,y)R2}FF

¿Los árboles de regresión son capaces de encontrar un modelo uniforme de la función (por lo tanto, un pequeño cambio en la entrada solo debería dar un pequeño cambio en la salida)?

Por lo que leí en la Lección 10: Árboles de regresión, me parece que los árboles de regresión básicamente ponen los valores de las funciones en contenedores:

Para los árboles de regresión clásicos, el modelo en cada celda es solo una estimación constante de Y.

Mientras escriben "clásico", ¿supongo que hay una variante en la que las células hacen algo más interesante?

Martin Thoma
fuente

Respuestas:

2

Los árboles de regresión, particularmente el aumento de gradiente (esencialmente muchos árboles), tienden a funcionar muy bien en predicciones continuas, a menudo superando a los modelos que son realmente continuos como la regresión lineal cuando. Esto es especialmente cierto cuando hay interacciones variables y cuando tiene un conjunto de datos suficientemente grande (más de 10,000 registros) para que sea menos probable el sobreajuste. Si su objetivo principal es simplemente el poder predictivo, entonces si el modelo es 100% continuo o pseudo continuo debería ser irrelevante. Si hacer que sus árboles de regresión sean más continuos mejora con el poder predictivo de la muestra, simplemente puede aumentar la profundidad de los árboles o agregar más árboles.

Ryan Zotti
fuente
1
Estoy de acuerdo. Mis árboles mejorados casi siempre superan a los GLM muy minuciosamente elaborados y optimizados. Por supuesto, pierde la capacidad de interpretación cuando gana poder predictivo.
prooffreader
0

En los árboles de regresión clásicos, tiene un valor en la hoja, pero en la hoja puede tener un modelo de regresión lineal, consulte este ticket.

También puede usar un conjunto de árboles (Random Forest o Gradient Boosting Machines) para tener un valor de salida continuo.

pplonski
fuente
0

Si extiende ligeramente la pregunta para incluir técnicas generales de aumento de gradiente (en contraste con el caso especial de los árboles de regresión aumentados), entonces la respuesta es sí. El aumento de gradiente se ha utilizado con éxito como alternativa para la selección de variables. Un buen ejemplo es el paquete mboost . La clave es que, para empezar, la clase de aprendices base utilizada para impulsar consiste en modelos continuos. Este tutorial describe las clases típicas de aprendices básicos de la siguiente manera:

Los modelos básicos de aprendizaje básico se pueden clasificar en tres categorías distintas: modelos lineales, modelos suaves y árboles de decisión. También hay una serie de otros modelos, como los campos aleatorios de Markov (Dietterich et al., 2004) o las wavelets (Viola y Jones, 2001), pero su aplicación surge para tareas prácticas relativamente específicas.

Tenga en cuenta que en particular menciona wavelets. Los árboles y las wavelets se han combinado con éxito antes en wavelets basadas en árboles.

user3605620
fuente
¿Cuáles son los aprendices de base continua en el aumento de gradiente? Si la respuesta es árboles de decisión, ¿podría explicar cómo son continuos?
Martin Thoma
He actualizado mi respuesta. La clave es utilizar predictores continuos en forma de árbol.
user3605620