¿Por qué calculamos el valor de la información?

10

Tengo los datos con variables categóricas y variables continuas, pero es la necesidad de encontrar valor de información en el análisis explicativo de datos.

Solo dé la razón por la cual estamos calculando el valor de la información para cada variable al comienzo del análisis de datos y cuál será el punto de corte del VALOR DE INFORMACIÓN para tomar en cuenta el análisis

user43247
fuente
2
Díganos más específicamente a qué se refiere el "valor de información" del cálculo: no parece haber un significado cuantitativo estandarizado para ese término que todos los lectores entenderán de la misma manera. Cuando edite su pregunta, proporcione también más contexto para ayudarnos a comprender qué tipo de análisis está discutiendo y para qué está utilizando el "punto de corte".
whuber

Respuestas:

11

En términos generales, el valor de información proporciona una medida de qué tan bien una variable X es capaz de distinguir entre una respuesta binaria (por ejemplo, "buena" versus "mala") en alguna variable objetivo Y. La idea es si una variableX tiene un valor de información bajo, puede que no haga un trabajo suficiente para clasificar la variable objetivo y, por lo tanto, se elimina como una variable explicativa.

Para ver cómo funciona esto, dejemos X estar agrupado en nortecontenedores CadaXX corresponde a un yY que puede tomar uno de dos valores, digamos 0 o 1. Luego, para contenedores Xyo, 1yonorte,

yoV=yo=1norte(solyo-siyo)En(solyo/ /siyo)

dónde

siyo=(# # de 0 0'pecado Xyo)/ /(# # de 0 0'pecado X)= la proporción de 0 0está en la papelera yo versus todos los contenedores

solyo=(# # de 1'pecado Xyo)/ /(# # de 1'pecado X)= la proporción de 1está en la papelera yo versus todos los contenedores

En(solyo/ /siyo) también se conoce como el peso de la evidencia (para bin Xyo) Los valores de corte pueden variar y la selección es subjetiva. A menudo usoyoV<0,3 (como lo hace [1] a continuación).

En el contexto de la calificación crediticia, estos dos recursos deberían ayudar:

[1] http://www.mwsug.org/proceedings/2013/AA/MWSUG-2013-AA14.pdf

[2] http://support.sas.com/resources/papers/proceedings12/141-2012.pdf

dmanuge
fuente
1
¿Conoces algún tipo de corrección para calcular el valor de la información cuando uno de los contenedores es bueno o malo? Mi idea es agregar 1 a cada columna de cada contenedor para corregir esta situación. Me pregunto si esta es una práctica común o si hay otras preocupaciones teóricas. Estoy considerando principalmente este paso fuera del pragmatismo.
Zelazny7
He visto a algunos practicantes eliminar el término con todo lo bueno o lo malo del resumen, pero no lo recomendaría porque esencialmente anularías una asociación perfecta. Agregar una constante (por ejemplo, c) es una solución interesante, pero la elección, la constante y el tamaño del contenedor afectarán en gran medida su IV. Cuando c se acerca a 0 o el tamaño del depósito se acerca al infinito, el IV se acerca al infinito. Para obtener un IV más representativo, es posible que desee considerar la combinación de contenedores adyacentes que tienen todos los bienes o todos los males.
Dmanuge