Estoy estudiando árboles de clasificación y regresión, y una de las medidas para la ubicación dividida es el puntaje GINI.
Ahora estoy acostumbrado a determinar la mejor ubicación dividida cuando el registro de la razón de probabilidad de los mismos datos entre dos distribuciones es cero, lo que significa que la probabilidad de membresía es igualmente probable.
Mi intuición dice que debe haber una conexión de algún tipo, que GINI debe tener una buena base en una teoría matemática de la información (Shannon) pero no entiendo a GINI lo suficiente como para derivar la relación yo mismo.
Preguntas:
- ¿Cuál es la derivación de los "primeros principios" del puntaje de impureza GINI como medida para dividir?
- ¿Cómo se relaciona el puntaje GINI con el logaritmo de la razón de probabilidad u otros fundamentos teóricos de la información (la entropía de Shannon, el pdf y la entropía cruzada son parte de esos)?
Referencias
- ¿Cómo se define el Criterio de Gini ponderado?
- Matemáticas detrás de los árboles de clasificación y regresión.
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(agregado) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
La entropía de Shannon se describe como:
Extendiendo esto al caso multivariante obtenemos:
La entropía condicional se define de la siguiente manera:
El registro de la razón de probabilidades se usa para la detección de cambios abruptos y se deriva usando estos. (No tengo derivación delante de mí).
Impureza GINI:
- La forma general de impureza GINI es
Pensamientos:
- La división se realiza en una medida de impureza. La "pureza" alta es probablemente lo mismo que la baja entropía. El enfoque probablemente esté relacionado con la minimización de la entropía.
- Es probable que la distribución de base supuesta sea uniforme, o posiblemente con gaussiano que agita a mano. Es probable que estén haciendo una mezcla de distribuciones.
- Me pregunto si la derivación del gráfico Shewhart puede aplicarse aquí.
(adicional)
- La forma también es consistente con una distribución beta-binomial que es un conjugado previo para una distribución hipergeométrica. Las pruebas hipergeométricas a menudo se usan para determinar qué muestras están representadas de más o menos en una muestra. También hay una relación con la prueba exacta de Fisher, sea lo que sea (nota personal, ve a aprender más sobre esto).
Editar: sospecho que hay una forma de GINI que funciona muy bien con lógica digital y / o rb-trees. Espero explorar esto en un proyecto de clase este otoño.
fuente
Respuestas:
Usaré la misma notación que usé aquí: Matemáticas detrás de los árboles de clasificación y regresión.
Dependiendo de la comunidad (estadísticas / minería de datos), las personas prefieren una medida u otra (Pregunta relacionada aquí ). Pueden ser más o menos equivalentes en el proceso de inducción del árbol de decisión. Sin embargo, la probabilidad de registro puede dar puntajes más altos a las particiones equilibradas cuando hay muchas clases [Nota técnica: algunas propiedades de los criterios de división. Breiman 1996].
Gini Gain puede ser más agradable porque no tiene logaritmos y puede encontrar la forma cerrada para su valor esperado y su varianza bajo suposición de división aleatoria [Alin Dobra, Johannes Gehrke: corrección de sesgo en la construcción del árbol de clasificación. ICML 2001: 90-97]. No es tan fácil para obtener información (si está interesado, consulte aquí ).
fuente
Buena pregunta. Desafortunadamente, todavía no tengo suficiente reputación para votar o comentar, ¡así que respondo en su lugar!
No estoy muy familiarizado con la prueba de razón, pero me parece que es un formalismo utilizado para comparar la probabilidad de que los datos surjan de dos (o más) distribuciones diferentes , mientras que el coeficiente de Gini es una estadística resumida de una sola distribución.
Una forma útil de pensar en el coeficiente de Gini (IMO) es como el área bajo la curva de Lorenz (relacionada con el cdf).
Puede ser posible equiparar la entropía de Shannon con Gini utilizando la definición dada en el OP para entropía:
y la definición de Gini:
It doesn't look like an easy task though!
fuente