Dado que RF puede manejar la no linealidad pero no puede proporcionar coeficientes, ¿sería prudente utilizar un bosque aleatorio para reunir las características más importantes y luego conectar esas características en un modelo de regresión lineal múltiple para obtener sus coeficientes?
regression
machine-learning
feature-selection
random-forest
regression-strategies
Modelo oculto de Markov
fuente
fuente
Respuestas:
Interpreto que la pregunta de una oración de OP significa que OP desea comprender la conveniencia de la siguiente línea de análisis:
No creo que esta tubería logre lo que le gustaría. Las variables que son importantes en el bosque aleatorio no necesariamente tienen ningún tipo de relación linealmente aditiva con el resultado. Este comentario no debería sorprender: es lo que hace que el bosque aleatorio sea tan efectivo para descubrir relaciones no lineales.
Aquí hay un ejemplo. Creé un problema de clasificación con 10 características de ruido, dos características de "señal" y un límite de decisión circular.
Y cuando aplicamos el modelo RF, no nos sorprende descubrir que estas características son fácilmente identificadas como importantes por el modelo. (Nota: este modelo no está ajustado para nada ).
Pero cuando seleccionamos solo estas dos características útiles, el modelo lineal resultante es horrible.
La parte importante del resumen es la comparación de la desviación residual y la desviación nula. Podemos ver que el modelo básicamente no hace nada para "mover" la desviación. Además, los coeficientes estimados son esencialmente cero.
¿Qué explica la gran diferencia entre los dos modelos? Bueno, claramente el límite de decisión que estamos tratando de aprender no es una función lineal de las dos características de "señal". Obviamente, si conocía la forma funcional del límite de decisión antes de estimar la regresión, podría aplicar alguna transformación para codificar los datos de una manera que la regresión pudiera descubrir ... (Pero nunca he conocido la forma del límite por delante de tiempo en cualquier problema del mundo real.) Dado que solo estamos trabajando con dos características de señal en este caso, un conjunto de datos sintéticos sin ruido en las etiquetas de clase, ese límite entre clases es muy obvio en nuestra gráfica. Pero es menos obvio cuando se trabaja con datos reales en un número realista de dimensiones.
Además, en general, el bosque aleatorio puede ajustar diferentes modelos a diferentes subconjuntos de datos. En un ejemplo más complicado, no será obvio lo que está sucediendo en un solo diagrama, y construir un modelo lineal de poder predictivo similar será aún más difícil.
Debido a que solo nos interesan dos dimensiones, podemos hacer una superficie de predicción. Como se esperaba, el modelo aleatorio aprende que el vecindario alrededor del origen es importante.
Como implica el resultado de nuestro modelo abismal, la superficie de predicción para el modelo de regresión logística de variable reducida es básicamente plana.
HongOoi señala que la membresía de la clase no es una función lineal de las características, sino que se trata de una función lineal que se está transformando. Debido a que el límite de decisión es si ajustamos estas características al cuadrado, podremos construir un modelo lineal más útil. Esto es deliberado. Si bien el modelo de RF puede encontrar señal en esas dos características sin transformación, el analista debe ser más específico para obtener resultados igualmente útiles en el GLM. Quizás eso sea suficiente para OP: encontrar un conjunto útil de transformaciones para 2 características es más fácil que 12. Pero mi punto es que incluso si una transformación producirá un modelo lineal útil, la importancia de la característica de RF no sugerirá la transformación por sí sola.1=x21+x22,
fuente
La respuesta de @Sycorax es fantástica. Además de los aspectos completamente descritos del problema relacionados con el ajuste del modelo, hay otra razón para no seguir un proceso de varios pasos, como la ejecución de bosques aleatorios, lazo o red elástica para "aprender" qué características alimentar a la regresión tradicional. Regresión ordinaria no sabría acerca de la penalización que fue correctamente durante el desarrollo de los bosques al azar o los otros métodos, y encajaría efectos no sancionado que están gravemente sesgados a aparecer demasiado fuerte en la predicción de . Esto no sería diferente a ejecutar la selección de variables paso a paso e informar el modelo final sin tener en cuenta cómo llegó.Y
fuente
Un bosque aleatorio ejecutado correctamente aplicado a un problema que es más "apropiado para el bosque aleatorio" puede funcionar como un filtro para eliminar el ruido y generar resultados que son más útiles como entradas para otras herramientas de análisis.
Descargos de responsabilidad:
Tengo que dar un "grito" a mis "píos" que hicieron "Spider". ( enlace ) Su problema de ejemplo informó mi enfoque. ( enlace ) También me encantan los estimadores de Theil-Sen, y desearía poder darle accesorios a Theil y Sen.
Mi respuesta no se trata de cómo hacerlo mal, sino de cómo podría funcionar si lo hicieras bien. Si bien uso el ruido "trivial", quiero que piense en el ruido "no trivial" o "estructurado".
Una de las fortalezas de un bosque aleatorio es qué tan bien se aplica a los problemas de alta dimensión. No puedo mostrar 20k columnas (también conocido como un espacio dimensional de 20k) de una manera visual limpia. No es una tarea fácil. Sin embargo, si tiene un problema de 20k dimensiones, un bosque aleatorio podría ser una buena herramienta cuando la mayoría de los demás caen de bruces sobre sus "caras".
Este es un ejemplo de eliminación de ruido de la señal utilizando un bosque aleatorio.
Permítanme describir lo que está pasando aquí. La siguiente imagen muestra datos de entrenamiento para la clase "1". La clase "2" es aleatoria uniforme sobre el mismo dominio y rango. Puede ver que la "información" de "1" es principalmente una espiral, pero se ha corrompido con material de "2". Tener el 33% de sus datos corruptos puede ser un problema para muchas herramientas de adaptación. Theil-Sen comienza a degradarse en aproximadamente un 29%. ( enlace )
Ahora separamos la información, solo teniendo una idea de qué es el ruido.
Aquí está el resultado apropiado:
Realmente me gusta esto porque puede mostrar tanto las fortalezas como las debilidades de un método decente a un problema difícil al mismo tiempo. Si mira cerca del centro, puede ver cómo hay menos filtrado. La escala geométrica de información es pequeña y al bosque aleatorio le falta eso. Dice algo sobre el número de nodos, el número de árboles y la densidad de la muestra para la clase 2. También hay un "espacio" cercano (-50, -50) y "chorros" en varios lugares. En general, sin embargo, el filtrado es decente.
Comparar vs SVM
Aquí está el código para permitir una comparación con SVM:
Resulta en la siguiente imagen.
Este es un SVM decente. El gris es el dominio asociado con la clase "1" por el SVM. Los puntos azules son las muestras asociadas con la clase "1" por el RF. El filtro basado en RF funciona de manera comparable a SVM sin una base impuesta explícitamente. Se puede ver que los "datos ajustados" cerca del centro de la espiral están mucho más "firmemente" resueltos por la RF. También hay "islas" hacia la "cola" donde el RF encuentra una asociación que el SVM no.
Estoy entretenido Sin tener antecedentes, hice una de las primeras cosas que también hizo un muy buen colaborador en el campo. El autor original utilizó "distribución de referencia" ( enlace , enlace ).
EDITAR:
Aplique FOREST aleatorio a este modelo: si
bien el usuario777 piensa que un CART es el elemento de un bosque aleatorio, la premisa del bosque aleatorio es la "agregación en conjunto de alumnos débiles". El CART es un aprendiz débil conocido pero no es nada remotamente cerca de un "conjunto". El "conjunto" aunque en un bosque aleatorio está destinado "en el límite de una gran cantidad de muestras". La respuesta del usuario777, en el diagrama de dispersión, utiliza al menos 500 muestras y eso dice algo sobre la legibilidad humana y los tamaños de muestra en este caso. El sistema visual humano (en sí mismo un conjunto de estudiantes) es un sorprendente sensor y procesador de datos y considera que ese valor es suficiente para facilitar el procesamiento.
Si tomamos incluso la configuración predeterminada en una herramienta de bosque aleatorio, podemos observar que el comportamiento del error de clasificación aumenta para los primeros árboles y no alcanza el nivel de un árbol hasta que haya alrededor de 10 árboles. Inicialmente el error crece, la reducción del error se vuelve estable alrededor de 60 árboles. Por estable quiero decir
Cuyos rendimientos:
Si en lugar de mirar al "alumno débil mínimo" miramos el "conjunto mínimo débil" sugerido por una heurística muy breve para la configuración predeterminada de la herramienta, los resultados son algo diferentes.
Tenga en cuenta que usé "líneas" para dibujar el círculo que indica el borde sobre la aproximación. Puede ver que es imperfecto, pero mucho mejor que la calidad de un solo alumno.
El muestreo original tiene 88 muestras "interiores". Si se aumentan los tamaños de muestra (permitiendo que se aplique el conjunto), la calidad de la aproximación también mejora. El mismo número de alumnos con 20,000 muestras hace un ajuste increíblemente mejor.
La información de entrada de mucha mayor calidad también permite la evaluación del número apropiado de árboles. La inspección de la convergencia sugiere que 20 árboles es el número mínimo suficiente en este caso particular, para representar bien los datos.
fuente