Tengo tres características que utilizo para resolver un problema de clasificación. Originalmente, estas características producían valores booleanos, por lo que pude evaluar su redundancia al observar cuánto se superponen los conjuntos de clasificaciones positivas y negativas. Ahora he ampliado las funciones para producir valores reales (puntajes) en su lugar, y me gustaría analizar su redundancia nuevamente, pero no sé cómo hacerlo. ¿Alguien puede proporcionarme un puntero o una idea sobre cómo hacerlo?
Sé que esta pregunta es muy vaga, eso es porque no tengo una muy buena comprensión de las estadísticas. Entonces, si no tiene una respuesta para mí, tal vez tenga algunas preguntas que puedan ayudarme a comprenderme mejor.
Editar: Actualmente estoy navegando en Wikipedia sobre el tema, tengo la sensación de que lo que quiero es un coeficiente de correlación, pero todavía no estoy seguro de si este es el enfoque correcto y cuál de los muchos coeficientes disponibles es el adecuado.
Edición 2: en el caso booleano, primero creé para cada característica el conjunto de muestras para el que era cierto. Entonces, la correlación entre dos características fue el tamaño de la intersección de estos conjuntos sobre el tamaño de la unión de estos conjuntos. Si este valor es 1, son completamente redundantes, porque siempre son iguales. Si es 0, nunca son lo mismo.
fuente
Respuestas:
Esto suena como un problema de selección de características, si este es el caso, creo que desea calcular la información mutua entre todos los subconjuntos de características y la salida de clasificación. El subconjunto con la información mutua más alta será el conjunto de características que contiene la mayor cantidad de "información" sobre la clasificación resultante del registro.
Si solo tiene 3 características, puede calcular todos los subconjuntos posibles en un período de tiempo razonable, si su conjunto de características se hace más grande, tendrá que aproximar esto (generalmente usando un enfoque codicioso: tome la característica con el MI más alto en cada paso )
fuente