¿Cómo cuantificar la redundancia de características?

10

Tengo tres características que utilizo para resolver un problema de clasificación. Originalmente, estas características producían valores booleanos, por lo que pude evaluar su redundancia al observar cuánto se superponen los conjuntos de clasificaciones positivas y negativas. Ahora he ampliado las funciones para producir valores reales (puntajes) en su lugar, y me gustaría analizar su redundancia nuevamente, pero no sé cómo hacerlo. ¿Alguien puede proporcionarme un puntero o una idea sobre cómo hacerlo?

Sé que esta pregunta es muy vaga, eso es porque no tengo una muy buena comprensión de las estadísticas. Entonces, si no tiene una respuesta para mí, tal vez tenga algunas preguntas que puedan ayudarme a comprenderme mejor.

Editar: Actualmente estoy navegando en Wikipedia sobre el tema, tengo la sensación de que lo que quiero es un coeficiente de correlación, pero todavía no estoy seguro de si este es el enfoque correcto y cuál de los muchos coeficientes disponibles es el adecuado.

Edición 2: en el caso booleano, primero creé para cada característica el conjunto de muestras para el que era cierto. Entonces, la correlación entre dos características fue el tamaño de la intersección de estos conjuntos sobre el tamaño de la unión de estos conjuntos. Si este valor es 1, son completamente redundantes, porque siempre son iguales. Si es 0, nunca son lo mismo.

Björn Pollex
fuente
que sería útil que ya ha proporcionado ejemplo de cómo se define la redundancia en el caso de Boole, y qué tipo de resultados que cabe esperar en caso continuo
mpiktas
@mpiktas: edite mi pregunta en respuesta a su comentario.
Björn Pollex

Respuestas:

4

Esto suena como un problema de selección de características, si este es el caso, creo que desea calcular la información mutua entre todos los subconjuntos de características y la salida de clasificación. El subconjunto con la información mutua más alta será el conjunto de características que contiene la mayor cantidad de "información" sobre la clasificación resultante del registro.

Si solo tiene 3 características, puede calcular todos los subconjuntos posibles en un período de tiempo razonable, si su conjunto de características se hace más grande, tendrá que aproximar esto (generalmente usando un enfoque codicioso: tome la característica con el MI más alto en cada paso )

Mella
fuente
2
(+1) para información mutua. Comentario adicional: a) Sugiero Ganancia de información como caso especial de información mutua. b) La selección automática de características no solo eliminará las redundantes sino también todas las características que tienen un impacto negativo en la discriminación de clase.
steffen
¡Gracias! Esto suena muy prometedor, lo investigaré.
Björn Pollex