¿Por qué calculamos el valor de la información?

Tengo los datos con variables categóricas y variables continuas, pero es la necesidad de encontrar valor de información en el análisis explicativo de datos.

Solo dé la razón por la cual estamos calculando el valor de la información para cada variable al comienzo del análisis de datos y cuál será el punto de corte del VALOR DE INFORMACIÓN para tomar en cuenta el análisis

data-visualization user43247
fuente

Díganos más específicamente a qué se refiere el "valor de información" del cálculo: no parece haber un significado cuantitativo estandarizado para ese término que todos los lectores entenderán de la misma manera. Cuando edite su pregunta, proporcione también más contexto para ayudarnos a comprender qué tipo de análisis está discutiendo y para qué está utilizando el "punto de corte".

whuber

En términos generales, el valor de información proporciona una medida de qué tan bien una variable $X$ es capaz de distinguir entre una respuesta binaria (por ejemplo, "buena" versus "mala") en alguna variable objetivo $Y$ . La idea es si una variable $X$ tiene un valor de información bajo, puede que no haga un trabajo suficiente para clasificar la variable objetivo y, por lo tanto, se elimina como una variable explicativa.

Para ver cómo funciona esto, dejemos $X$ estar agrupado en $n$ contenedores Cada $x \in X$ corresponde a un $y \in Y$ que puede tomar uno de dos valores, digamos 0 o 1. Luego, para contenedores $X_i$ , $1 \leq i \leq n$ ,

yo V = \sum_{yo = 1}^{norte} ({sol}_{yo} - {si}_{yo}) * En ({sol}_{yo} / / {si}_{yo})

$IV= \sum_{i=1}^n (g_i-b_i)*\ln(g_i/b_i)$

dónde

$b_i= (\#$ de $0$ 'pecado $X_i)/(\#$ de $0$ 'pecado $X) =$ la proporción de $0$ está en la papelera $i$ versus todos los contenedores

$g_i= (\#$ de $1$ 'pecado $X_i)/(\#$ de $1$ 'pecado $X) =$ la proporción de $1$ está en la papelera $i$ versus todos los contenedores

$\ln(g_i/b_i)$ también se conoce como el peso de la evidencia (para bin $X_i$ ) Los valores de corte pueden variar y la selección es subjetiva. A menudo uso $IV < 0.3$ (como lo hace [1] a continuación).

En el contexto de la calificación crediticia, estos dos recursos deberían ayudar:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf

dmanuge
fuente

¿Conoces algún tipo de corrección para calcular el valor de la información cuando uno de los contenedores es bueno o malo? Mi idea es agregar 1 a cada columna de cada contenedor para corregir esta situación. Me pregunto si esta es una práctica común o si hay otras preocupaciones teóricas. Estoy considerando principalmente este paso fuera del pragmatismo.

Zelazny7

He visto a algunos practicantes eliminar el término con todo lo bueno o lo malo del resumen, pero no lo recomendaría porque esencialmente anularías una asociación perfecta. Agregar una constante (por ejemplo, c) es una solución interesante, pero la elección, la constante y el tamaño del contenedor afectarán en gran medida su IV. Cuando c se acerca a 0 o el tamaño del depósito se acerca al infinito, el IV se acerca al infinito. Para obtener un IV más representativo, es posible que desee considerar la combinación de contenedores adyacentes que tienen todos los bienes o todos los males.

Dmanuge

¿Por qué calculamos el valor de la información?

Respuestas: