En realidad, estoy escribiendo una implementación de Bosques aleatorios, pero creo que la pregunta es específica de los árboles de decisión (independientemente de los RF).
Entonces, el contexto es que estoy creando un nodo en un árbol de decisión y tanto la predicción como las variables objetivo son continuas. El nodo tiene un umbral dividido para dividir los datos en dos conjuntos, y creo una nueva predicción para cada subconjunto en función del valor objetivo promedio en cada conjunto. ¿Es este el enfoque correcto?
La razón por la que pregunto es que al predecir variables binarias creo que el enfoque típico (¿correcto?) Es dividir los datos en 0 y 1 subconjuntos sin tomar un promedio sobre las filas de datos en cada subconjunto. Las divisiones posteriores se dividirán en subconjuntos de grano más fino y tomar un promedio en cada división da como resultado divisiones posteriores (más abajo en el árbol de decisión) que operan en lo que ahora son variables continuas en lugar de variables binarias (porque estamos operando en los valores de error residual en lugar del original objetivos).
Pregunta secundaria: ¿Es significativa la distinción entre los dos enfoques (binario versus continuo), o darán resultados idénticos para un árbol de decisión completo?
fuente
Respuestas:
Un problema potencial con los árboles es que tienden a encajar mal en las colas. Piense en un nodo terminal que capture el rango bajo del conjunto de entrenamiento. Se pronosticará utilizando la media de esos puntos de ajuste de entrenamiento, que siempre subestimarán el resultado (ya que es la media).
Puede probar árboles modelo [1]. Estos se ajustarán a modelos lineales en los nodos terminales y (creo) harán un mejor trabajo que los árboles de regresión. Mejor aún, use una versión más evolucionada llamada Cubista que combine diferentes enfoques ([1] y [2] a continuación).
Estos modelos también manejan predictores continuos y discretos de manera diferente. Pueden hacer divisiones de múltiples vías para variables categóricas. El criterio de división es muy similar a los árboles CART.
Los árboles modelo se pueden encontrar en R en el paquete RWeka (llamado 'M5P') y Cubist está en el paquete Cubist. Por supuesto, también puede usar Weka y Cubist tiene una versión C disponible en el sitio web de RuleQuest.
[1] Quinlan, J. (1992). Aprendizaje con clases continuas. Actas de la 5ª Conferencia Conjunta Australiana sobre Inteligencia Artificial, 343–348.
[2] Quinlan, J. (1993). Combina el aprendizaje basado en instancias y en modelos. Actas de la Décima Conferencia Internacional sobre Aprendizaje Automático, 236–243.
fuente