Me pregunto si hay alguna heurística en el número de características versus el número de observaciones. Obviamente, si un número de características es igual al número de observaciones, el modelo se sobreajustará. Mediante el uso de métodos dispersos (LASSO, red elástica) podemos eliminar varias características para reducir el modelo.
Mi pregunta es (teóricamente): antes de usar las métricas para evaluar la selección del modelo, ¿hay alguna observación empírica que relacione el número óptimo de características con el número de observaciones?
Por ejemplo: para un problema de clasificación binaria con 20 instancias en cada clase, ¿hay algún límite superior en la cantidad de características a usar?
fuente
desde mi propia experiencia: en un caso, trabajé con una base de datos real que es muy pequeña (300 imágenes) con muchas clases, un grave problema de desequilibrio de datos y terminé usando 9 funciones: SIFT, HOG, Shape context, SSIM, GM y 4 características basadas en DNN. En otro caso, trabajé con una base de datos muy grande (> 1 M de imágenes) y terminé usando solo la función HOG. Creo que no existe una relación directa entre el número de instancias y el número de características requeridas para lograr una alta precisión. PERO: el número de clases, la similitud entre clases y la variación dentro de la misma clase (estos tres parámetros) pueden afectar el número de características. cuando se tiene una base de datos más grande con muchas clases y una gran similitud entre clases y una gran variación dentro de la misma clase, se necesitan más funciones para lograr una alta precisión. RECUERDA:
fuente
Depende ... pero, por supuesto, esa respuesta no te lleva a ninguna parte.
Él es una regla general para la complejidad del modelo: Aprender de los datos - Dimensión VC
"Más o menos" necesita 10 puntos de datos para cada parámetro del modelo. Y la cantidad de parámetros del modelo puede ser similar a la cantidad de características.
fuente
Un poco tarde para la fiesta, pero aquí hay algunas heurísticas.
Para el entrenamiento de clasificadores lineales, se recomiendan de 3 a 5 casos independientes por clase y característica. Este límite le brinda modelos confiables estables , no garantiza un buen modelo (esto no es posible: podría tener datos poco informativos donde ningún modelo podría lograr un buen rendimiento de generalización)
Sin embargo, para tamaños de muestra tan pequeños como su escenario, la verificación (validación) en lugar de la capacitación es el cuello de botella, y la verificación depende del número absoluto de casos de prueba en lugar de casos relativos a la complejidad del modelo: como regla general, necesita una prueba de ≈ 100 casos en el denominador para estimar una proporción con un intervalo de confianza que no sea más de 10% de ancho.
Desafortunadamente, esto también significa que básicamente no puede obtener la curva de aprendizaje empírica para su aplicación: no puede medirla con la suficiente precisión, y en la práctica de todos modos tendrá grandes dificultades para extrapolarla porque para el entrenamiento reacciona al pequeño tamaño de muestra al restringir su modelo complejidad, y esto lo relajaría al aumentar el tamaño de la muestra.
Consulte nuestro documento para obtener más detalles: Beleites, C. y Neugebauer, U. y Bocklitz, T. y Krafft, C. y Popp, J .: Planificación del tamaño de la muestra para modelos de clasificación. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
manuscrito aceptado en arXiv: 1211.1323
Nunca he tenido nada parecido a estas recomendaciones (datos de espectroscopía, también para aplicaciones médicas). Lo que hago entonces es: mido muy de cerca la estabilidad del modelo como parte del proceso de modelado y verificación.
fuente