Gracias por una muy buena pregunta! Trataré de dar mi intuición detrás de esto.
Para entender esto, recuerde los "ingredientes" del clasificador de bosque aleatorio (hay algunas modificaciones, pero esta es la tubería general):
- En cada paso de la construcción de un árbol individual, encontramos la mejor división de datos
- Al construir un árbol, no utilizamos todo el conjunto de datos, sino una muestra de bootstrap
- Agregamos los resultados de los árboles individuales promediando (en realidad 2 y 3 significan juntos un procedimiento de ensacado más general )
Asume el primer punto. No siempre es posible encontrar la mejor división. Por ejemplo, en el siguiente conjunto de datos, cada división dará exactamente un objeto mal clasificado.
Y creo que exactamente este punto puede ser confuso: de hecho, el comportamiento de la división individual es de alguna manera similar al comportamiento del clasificador Naive Bayes: si las variables son dependientes, no hay mejor división para los árboles de decisión y el clasificador Naive Bayes también falla (solo para recordar: las variables independientes son la suposición principal que hacemos en el clasificador Naive Bayes; todas las demás suposiciones provienen del modelo probabilístico que elegimos).
Pero aquí viene la gran ventaja de los árboles de decisión: tomamos cualquier división y continuamos dividiéndola aún más. Y para las siguientes divisiones encontraremos una separación perfecta (en rojo).
Y como no tenemos un modelo probabilístico, sino solo una división binaria, no necesitamos hacer ninguna suposición.
Eso fue sobre Decision Tree, pero también se aplica para Random Forest. La diferencia es que para Random Forest usamos Bootstrap Aggregation. No tiene ningún modelo debajo, y la única suposición de que se basa es que el muestreo es representativo . Pero esto suele ser una suposición común. Por ejemplo, si una clase consta de dos componentes y en nuestro conjunto de datos un componente está representado por 100 muestras, y otro componente está representado por 1 muestra, probablemente la mayoría de los árboles de decisión individuales verán solo el primer componente y Random Forest clasificará erróneamente el segundo. .
Espero que le dé más comprensión.