El problema se refiere a la construcción de árboles de decisión. Según Wikipedia, el ' coeficiente de Gini ' no debe confundirse con la ' impureza de Gini '. Sin embargo, ambas medidas se pueden usar al construir un árbol de decisión; estas pueden respaldar nuestras elecciones al dividir el conjunto de elementos.
1) 'impureza de Gini': es una métrica estándar de división de árboles de decisión (ver en el enlace anterior);
2) 'Coeficiente de Gini': cada división se puede evaluar en función del criterio AUC. Para cada escenario de división, podemos construir una curva ROC y calcular la métrica AUC. Según Wikipedia AUC = (GiniCoeff + 1) / 2;
La pregunta es: ¿son equivalentes ambas medidas? Por un lado, me informan que el coeficiente de Gini no debe confundirse con la impureza de Gini. Por otro lado, ambas medidas se pueden utilizar para hacer lo mismo: evaluar la calidad de una división del árbol de decisión.
fuente
Respuestas:
No, a pesar de sus nombres, no son equivalentes ni tan similares.
Ambos podrían aplicarse en algunos casos, pero son medidas diferentes para diferentes cosas. La impureza es lo que se usa comúnmente en los árboles de decisión .
fuente
Tomé un ejemplo de datos con dos personas A y B con riqueza de unidad 1 y unidad 3 respectivamente. Impureza de Gini según Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8
El coeficiente de Gini según Wikipedia sería la relación del área entre la línea roja y azul con el área total debajo de la línea azul en el siguiente gráfico
El área debajo de la línea roja es 1/2 + 1 + 3/2 = 3
Área total debajo de la línea azul = 4
Entonces coeficiente de Gini = 3/4
Claramente los dos números son diferentes. Comprobaré más casos para ver si son proporcionales o si hay una relación exacta y editaré la respuesta.
Editar: También busqué otras combinaciones, la relación no es constante. A continuación hay una lista de algunas combinaciones que probé.
fuente
Creo que ambos representan el mismo concepto.
En los árboles de clasificación, el índice de Gini se usa para calcular la impureza de una partición de datos. Supongamos que la partición de datos D consiste en 4 clases cada una con la misma probabilidad. Entonces el índice de Gini (impureza de Gini) será: Gini (D) = 1 - (0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)
En CART realizamos divisiones binarias. Entonces, el índice de Gini se calculará como la suma ponderada de las particiones resultantes y seleccionamos la división con el índice de Gini más pequeño.
Por lo tanto, el uso de Gini Impurity (Índice de Gini) no se limita a situaciones binarias.
Otro término para la impureza de Gini es el coeficiente de Gini, que se usa normalmente como una medida de la distribución del ingreso.
fuente