El impulso del árbol de gradiente propuesto por Friedman utiliza árboles de decisión como aprendices básicos. Me pregunto si deberíamos hacer que el árbol de decisión base sea lo más complejo posible (completamente desarrollado) o más simple. ¿Hay alguna explicación para la elección?
Random Forest es otro método de conjunto que utiliza árboles de decisión como aprendices básicos. Según mi comprensión, generalmente usamos los árboles de decisión casi completamente desarrollados en cada iteración. Estoy en lo cierto?
Respuestas:
Tenga en cuenta que, a diferencia de Boosting (que es secuencial), RF cultiva árboles en paralelo . El término
iterative
que usó es, por lo tanto, inapropiado.fuente
Esta pregunta se aborda en esta muy buena publicación. Por favor échale un vistazo y las referencias allí. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/
Observe en el artículo que habla sobre la calibración y enlaces a otra (agradable) publicación de blog al respecto. Aún así, encuentro que el documento Obteniendo las probabilidades calibradas del refuerzo le da una mejor comprensión de lo que es la calibración en el contexto de los clasificadores potenciados, y cuáles son los métodos estándar para realizarla.
Y finalmente falta un aspecto (un poco más teórico). Tanto RF como GBM son métodos de conjunto, lo que significa que crea un clasificador a partir de una gran cantidad de clasificadores más pequeños. Ahora la diferencia fundamental radica en el método utilizado:
fuente