¿Cuál es una mejor función de costo para un árbol forestal aleatorio: índice de Gini o entropía?
Estoy tratando de implementar un bosque aleatorio en Clojure.
¿Cuál es una mejor función de costo para un árbol forestal aleatorio: índice de Gini o entropía?
Estoy tratando de implementar un bosque aleatorio en Clojure.
Como encontré en Introducción a la minería de datos por Tan et. Alabama:
Los estudios han demostrado que la elección de la medida de impurezas tiene poco efecto sobre el rendimiento de los algoritmos de inducción del árbol de decisión. Esto se debe a que muchas medidas de impurezas son bastante consistentes entre sí [...]. De hecho, la estrategia utilizada para podar el árbol tiene un mayor impacto en el árbol final que la elección de la medida de impureza.
Por lo tanto, puede optar por utilizar el índice de Gini como CART o la entropía como C4.5.
Yo usaría Entropía, más específicamente la relación de ganancia de C4.5 porque puedes seguir fácilmente el libro bien escrito de Quinlan: C4.5 Programas para el aprendizaje automático.