Los bosques al azar se utilizan para la regresión. Sin embargo, por lo que entiendo, asignan un valor objetivo promedio en cada hoja. Dado que solo hay hojas limitadas en cada árbol, solo hay valores específicos que el objetivo puede alcanzar de nuestro modelo de regresión. Entonces, ¿no es solo una regresión 'discreta' (como una función escalonada) y no es como una regresión lineal que es 'continua'?
¿Estoy entendiendo esto correctamente? En caso afirmativo, ¿qué ventaja ofrece el bosque aleatorio en la regresión?
regression
random-forest
cart
usuario110565
fuente
fuente
Respuestas:
Esto es correcto: los bosques aleatorios discretizan las variables continuas ya que se basan en árboles de decisión, que funcionan a través de particiones binarias recursivas. Pero con suficientes datos y suficientes divisiones, una función de paso con muchos pasos pequeños puede aproximarse a una función fluida. Entonces esto no tiene por qué ser un problema. Si realmente desea capturar una respuesta uniforme de un solo predictor, calcule el efecto parcial de cualquier variable particular y ajuste una función uniforme (esto no afecta el modelo en sí, que conservará este carácter gradual).
Los bosques aleatorios ofrecen bastantes ventajas sobre las técnicas de regresión estándar para algunas aplicaciones. Por mencionar solo tres:
En cuanto a si es una regresión "verdadera", esto es algo semántico. Después de todo, la regresión por partes también es regresión, pero tampoco es uniforme. Como es cualquier regresión con un predictor categórico, como se señala en los comentarios a continuación.
fuente
Es discreto, pero cualquier salida en forma de número de coma flotante con un número fijo de bits será discreta. Si un árbol tiene 100 hojas, puede dar 100 números diferentes. Si tiene 100 árboles diferentes con 100 hojas cada uno, entonces su bosque aleatorio teóricamente puede tener 100 ^ 100 valores diferentes, lo que puede dar 200 dígitos (decimales) de precisión, o ~ 600 bits. Por supuesto, habrá una superposición, por lo que en realidad no verá 100 ^ 100 valores diferentes. La distribución tiende a ser más discreta cuanto más llegas a los extremos; cada árbol tendrá una hoja mínima (una hoja que da un resultado menor o igual que todas las demás hojas), y una vez que obtiene la hoja mínima de cada árbol, no puede bajar más. Entonces habrá un valor general mínimo para el bosque, y a medida que se desvía de ese valor, comenzará con todos menos algunos árboles en su hoja mínima, haciendo pequeñas desviaciones del aumento del valor mínimo en saltos discretos. Pero la disminución de la confiabilidad en los extremos es una propiedad de las regresiones en general, no solo de los bosques aleatorios.
fuente
La respuesta dependerá de cuál sea su definición de regresión, consulte Definición y delimitación del modelo de regresión . Pero una definición habitual (o parte de una definición) es que la regresión modela la expectativa condicional . Y un árbol de regresión puede ser visto como un estimador de expectativa condicional.
En los nodos de las hojas, predice el promedio de las observaciones de la muestra que llegan a esa hoja, y una media aritmética es un estimador de una expectativa. El patrón de ramificación en el árbol representa el condicionamiento.
fuente