¿Cuál es una mejor función de costo para un árbol forestal aleatorio: índice de Gini o entropía?

12

¿Cuál es una mejor función de costo para un árbol forestal aleatorio: índice de Gini o entropía?

Estoy tratando de implementar un bosque aleatorio en Clojure.

Vivek
fuente

Respuestas:

9

Como encontré en Introducción a la minería de datos por Tan et. Alabama:

Los estudios han demostrado que la elección de la medida de impurezas tiene poco efecto sobre el rendimiento de los algoritmos de inducción del árbol de decisión. Esto se debe a que muchas medidas de impurezas son bastante consistentes entre sí [...]. De hecho, la estrategia utilizada para podar el árbol tiene un mayor impacto en el árbol final que la elección de la medida de impureza.

Por lo tanto, puede optar por utilizar el índice de Gini como CART o la entropía como C4.5.

Yo usaría Entropía, más específicamente la relación de ganancia de C4.5 porque puedes seguir fácilmente el libro bien escrito de Quinlan: C4.5 Programas para el aprendizaje automático.

Simone
fuente
3
Pequeña observación: la entropía usa registros, lo que puede ser un problema de tiempo computacional.
8
Esa observación es sobre árboles de decisión pura, no sobre bosques al azar. Por lo general, no podas un árbol en un bosque aleatorio porque no estás tratando de construir el mejor árbol. Por lo tanto, parece engañoso hablar sobre lo que es más importante: la poda o la medida de impureza. El objetivo es encontrar el mejor árbol para usar con bosque aleatorio.
Chan-Ho Suh