Me gustaría crear un bosque aleatorio usando el siguiente proceso:
- Construya un árbol en muestras aleatorias de los datos y características usando la ganancia de información para determinar divisiones
- Termine un nodo de hoja si excede una profundidad predefinida O cualquier división daría como resultado un recuento de hojas menor que un mínimo predefinido
- En lugar de asignar una etiqueta de clase para cada árbol, asigne la proporción de clases en el nodo hoja
- Dejar de construir árboles después de que se haya construido un número predefinido
Esto contradice el proceso forestal aleatorio tradicional de dos maneras. Primero, utiliza árboles podados que asignan proporciones en lugar de etiquetas de clase. Y dos, el criterio de detención es un número predeterminado de árboles en lugar de una estimación de error fuera de bolsa.
Mi pregunta es esta:
Para el proceso anterior que genera N árboles, ¿puedo ajustar un modelo usando regresión logística con selección LASSO? ¿Alguien tiene experiencia en la instalación de un clasificador de bosque aleatorio y el procesamiento posterior con LASSO logístico?
El marco ISLE menciona el uso de LASSO como un paso posterior al procesamiento para problemas de regresión pero no para problemas de clasificación. Además, no obtengo ningún resultado útil cuando busco en Google "Random forest laso".
fuente
Respuestas:
Esto suena algo así como el impulso del árbol de gradiente. La idea de impulsar es encontrar la mejor combinación lineal de una clase de modelos. Si ajustamos un árbol a los datos, estamos tratando de encontrar el árbol que mejor explique la variable de resultado. Si, en cambio, utilizamos el refuerzo, estamos tratando de encontrar la mejor combinación lineal de árboles.
Sin embargo, al usar el refuerzo somos un poco más eficientes ya que no tenemos una colección de árboles aleatorios, pero tratamos de construir nuevos árboles que funcionen en los ejemplos que aún no podemos predecir bien.
Para más información sobre esto, sugiero leer el capítulo 10 de Elementos de aprendizaje estadístico: http://statweb.stanford.edu/~tibs/ElemStatLearn/
Si bien esta no es una respuesta completa de su pregunta, espero que ayude.
fuente