Suposiciones aleatorias del bosque

43

Soy un poco nuevo en el bosque aleatorio, así que todavía estoy luchando con algunos conceptos básicos.
En regresión lineal, asumimos observaciones independientes, varianza constante ...

  • ¿Cuáles son los supuestos básicos / hipótesis que hacemos cuando usamos bosque aleatorio?
  • ¿Cuáles son las diferencias clave entre el bosque aleatorio y las bahías ingenuas en términos de supuestos del modelo?
usuario1848018
fuente

Respuestas:

33

Gracias por una muy buena pregunta! Trataré de dar mi intuición detrás de esto.

Para entender esto, recuerde los "ingredientes" del clasificador de bosque aleatorio (hay algunas modificaciones, pero esta es la tubería general):

  1. En cada paso de la construcción de un árbol individual, encontramos la mejor división de datos
  2. Al construir un árbol, no utilizamos todo el conjunto de datos, sino una muestra de bootstrap
  3. Agregamos los resultados de los árboles individuales promediando (en realidad 2 y 3 significan juntos un procedimiento de ensacado más general )

Asume el primer punto. No siempre es posible encontrar la mejor división. Por ejemplo, en el siguiente conjunto de datos, cada división dará exactamente un objeto mal clasificado. Ejemplo del conjunto de datos sin mejor división

Y creo que exactamente este punto puede ser confuso: de hecho, el comportamiento de la división individual es de alguna manera similar al comportamiento del clasificador Naive Bayes: si las variables son dependientes, no hay mejor división para los árboles de decisión y el clasificador Naive Bayes también falla (solo para recordar: las variables independientes son la suposición principal que hacemos en el clasificador Naive Bayes; todas las demás suposiciones provienen del modelo probabilístico que elegimos).

Pero aquí viene la gran ventaja de los árboles de decisión: tomamos cualquier división y continuamos dividiéndola aún más. Y para las siguientes divisiones encontraremos una separación perfecta (en rojo). Ejemplo del límite de decisión

Y como no tenemos un modelo probabilístico, sino solo una división binaria, no necesitamos hacer ninguna suposición.

Eso fue sobre Decision Tree, pero también se aplica para Random Forest. La diferencia es que para Random Forest usamos Bootstrap Aggregation. No tiene ningún modelo debajo, y la única suposición de que se basa es que el muestreo es representativo . Pero esto suele ser una suposición común. Por ejemplo, si una clase consta de dos componentes y en nuestro conjunto de datos un componente está representado por 100 muestras, y otro componente está representado por 1 muestra, probablemente la mayoría de los árboles de decisión individuales verán solo el primer componente y Random Forest clasificará erróneamente el segundo. . Ejemplo de segundo componente débilmente representado

Espero que le dé más comprensión.

Dmitry Laptev
fuente
10

En un artículo de 2010, los autores documentaron que los modelos aleatorios de bosques estimaron de manera poco confiable la importancia de las variables cuando las variables eran multicolineales a través del espacio estadístico multidimensional. Por lo general, verifico esto antes de ejecutar modelos de bosque aleatorios.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

Mina
fuente
3
¿Cree en las conclusiones de "Cuantificación de la conectividad de Bufo boreas en el Parque Nacional de Yellowstone con genética del paisaje" en Ecología de autores del estado de Colorado sobre autores de Berkeley en Machine Learning sobre el tema de los algoritmos de aprendizaje automático?
Hack-R
8
No creo que estén en desacuerdo entre sí. Breiman no investigó este 'caso especial' de multicolinealidad en el espacio multidimensional. Además, las personas en el estado de Colorado también pueden ser inteligentes, y estos tipos lo son.
Mina