Coeficiente de Gini vs impureza de Gini - árboles de decisión

25

El problema se refiere a la construcción de árboles de decisión. Según Wikipedia, el ' coeficiente de Gini ' no debe confundirse con la ' impureza de Gini '. Sin embargo, ambas medidas se pueden usar al construir un árbol de decisión; estas pueden respaldar nuestras elecciones al dividir el conjunto de elementos.

1) 'impureza de Gini': es una métrica estándar de división de árboles de decisión (ver en el enlace anterior);

2) 'Coeficiente de Gini': cada división se puede evaluar en función del criterio AUC. Para cada escenario de división, podemos construir una curva ROC y calcular la métrica AUC. Según Wikipedia AUC = (GiniCoeff + 1) / 2;

La pregunta es: ¿son equivalentes ambas medidas? Por un lado, me informan que el coeficiente de Gini no debe confundirse con la impureza de Gini. Por otro lado, ambas medidas se pueden utilizar para hacer lo mismo: evaluar la calidad de una división del árbol de decisión.

Damien
fuente
Llegué a esta pregunta buscando una definición: en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity
Martin Thoma

Respuestas:

28

No, a pesar de sus nombres, no son equivalentes ni tan similares.

  • La impureza de Gini es una medida de clasificación errónea, que se aplica en un contexto clasificador multiclase.
  • El coeficiente de Gini se aplica a la clasificación binaria y requiere un clasificador que de alguna manera pueda clasificar los ejemplos de acuerdo con la probabilidad de estar en una clase positiva.

Ambos podrían aplicarse en algunos casos, pero son medidas diferentes para diferentes cosas. La impureza es lo que se usa comúnmente en los árboles de decisión .

Sean Owen
fuente
7

Tomé un ejemplo de datos con dos personas A y B con riqueza de unidad 1 y unidad 3 respectivamente. Impureza de Gini según Wikipedia = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

El coeficiente de Gini según Wikipedia sería la relación del área entre la línea roja y azul con el área total debajo de la línea azul en el siguiente gráfico

ingrese la descripción de la imagen aquí

El área debajo de la línea roja es 1/2 + 1 + 3/2 = 3

Área total debajo de la línea azul = 4

Entonces coeficiente de Gini = 3/4

Claramente los dos números son diferentes. Comprobaré más casos para ver si son proporcionales o si hay una relación exacta y editaré la respuesta.

Editar: También busqué otras combinaciones, la relación no es constante. A continuación hay una lista de algunas combinaciones que probé. ingrese la descripción de la imagen aquí

Gaurav Singhal
fuente
¡Qué explicación!
Outlier
0

Creo que ambos representan el mismo concepto.

En los árboles de clasificación, el índice de Gini se usa para calcular la impureza de una partición de datos. Supongamos que la partición de datos D consiste en 4 clases cada una con la misma probabilidad. Entonces el índice de Gini (impureza de Gini) será: Gini (D) = 1 - (0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

En CART realizamos divisiones binarias. Entonces, el índice de Gini se calculará como la suma ponderada de las particiones resultantes y seleccionamos la división con el índice de Gini más pequeño.

Por lo tanto, el uso de Gini Impurity (Índice de Gini) no se limita a situaciones binarias.

Otro término para la impureza de Gini es el coeficiente de Gini, que se usa normalmente como una medida de la distribución del ingreso.

Pasmod Turing
fuente
3
El coeficiente de Gini no es la impureza de Gini. Ver los enlaces en la pregunta
Sean Owen
2
Wikipedia no siempre es una fuente confiable de información :-)
Pasmod Turing
2
Seguro. Búscalo en otro lugar: mathworld.wolfram.com/GiniCoefficient.html ¿Qué te hace pensar que el coeficiente de Gini = la impureza de Gini?
Sean Owen
Búscalo
1
Creo que estamos hablando de árboles de decisión. ¡Así que estamos en el campo del aprendizaje automático! Por favor, lea la pregunta con más cuidado
Pasmod Turing