Dificultad para "aprender" instancias raras

¿Hay algún resultado que demuestre que los modelos (digamos SVM, Neural-Net, kNN, etc.) tendrán dificultades para aprender instancias "raras" / fenómenos de cola?

machine-learning lg.learning pac-learning Daniel
fuente

Creo que aceptó una respuesta demasiado rápido, es una buena respuesta, pero también podría haber más posibilidades.

usul

@usul gracias por el comentario. ¿Tienes alguna sugerencia? Estaría encantado de escuchar pensamientos adicionales.

Daniel

Respuestas:

En el modelo clásico de aprendizaje PAC (es decir, clasificación), las instancias raras no son un problema. Esto se debe a que se supone que los puntos de prueba del alumno provienen de la misma distribución que los datos de entrenamiento. Por lo tanto, si una región del espacio es tan escasa como para estar mal representada en la muestra de entrenamiento, su probabilidad de aparecer durante la fase de prueba es baja.

Necesitará un modelo de aprendizaje diferente, que explícitamente analiza los errores de tipo I y tipo II, o tal vez alguna puntuación combinada de recuperación de precisión. Una vez más, no creo que haya resultados que indiquen que una clase específica de algoritmos sea particularmente inadecuada para esta tarea, pero podría estar equivocado.

Lo más cercano que se me ocurre es la sensibilidad a los valores atípicos: se sabe que AdaBoost tiene esta propiedad, por ejemplo.

Aria
fuente