Tengo un conjunto de datos de una bolsa de palabras. Elijo aleatoriamente algunos puntos y los uso para probar y los otros se usan para entrenar.
- caso (1) Simplemente tomo cada punto de datos del conjunto de prueba y lo clasifico como teniendo la misma etiqueta de clase que su punto más cercano del conjunto de trenes.
- caso (2) Hago la clasificación usando cualquier clasificador supervisado conocido.
Siempre obtengo una mejor tasa de reconocimiento en el caso (1). Es decir, no aprender nada, ¡es mejor que usar cualquier aprendizaje supervisado para este conjunto de datos (y otros)! ¿Es esa una situación frecuente?
Respuestas:
No es cierto que no estés aprendiendo nada. Lo que está haciendo es usar el conocido algoritmo de clasificación llamado Vecino más cercano (NN). Es importante darse cuenta de que está aprendiendo mientras use los datos del tren (incluso si no calcula explícitamente algún parámetro), y en este caso definitivamente lo está usando.
Está bien que a NN le vaya bien. Sin embargo, en algunos casos puede ser una señal de que hay un problema con sus datos. Esto puede suceder cuando sus datos no son IID . Por ejemplo, en algunos casos puede tener duplicados exactos o cercanos en sus datos. En tal caso, muchas instancias en el conjunto de prueba tendrán un vecino cercano en el conjunto del tren y obtendrá una alta tasa de éxito, pero de hecho está sobreajustado, porque si obtiene un nuevo punto sin duplicados, su rendimiento será peor. Lo que puede hacer en este caso es tratar de eliminar los duplicados de antemano, o construir los conjuntos de tren / prueba de modo que los duplicados (o grupos apretados) tengan que estar en el mismo conjunto. Es importante mirar los datos e intentar comprender lo que está sucediendo.
fuente