¿Por qué aumentar el número de funciones reduce el rendimiento?

12

Estoy tratando de obtener una intuición de por qué aumentar el número de funciones podría reducir el rendimiento. Actualmente estoy usando un clasificador LDA que funciona mejor de manera bivariante entre ciertas funciones, pero peor al mirar más funciones. Mi precisión de clasificación se realiza utilizando un xval estratificado de 10 veces.

¿Hay un caso simple de cuándo un clasificador funcionaría mejor univariablemente que bivaraiamente para obtener una intuición algo física o espacial de lo que está sucediendo en estas dimensiones superiores?

dvreed77
fuente
8
Como comentario rápido, agregar predictores irrelevantes puede empeorar el rendimiento de los nuevos datos, una mayor variación de la predicción (sobreajuste). Esto se debe a que terminas adaptándote al ruido y diluyes la "señal verdadera".
B_Miner 01 de

Respuestas:

9

Consulte " Un problema de dimensionalidad: un ejemplo simple ", un artículo muy breve y muy antiguo de GV Trunk. Considera un problema de dos clases, con distribuciones condicionales de clase gaussianas donde las características son todas relevantes pero con relevancia decreciente. Él muestra que la tasa de error de un clasificador entrenado en una muestra finita converge a 0.5, mientras que el error de Bayes se acerca a 0, a medida que aumenta el número de características.

Innuo
fuente
(+1) Esa es una pequeña referencia linda.
cardenal
2

Esto se llama " Maldición de la dimensionalidad ". No sé si hay alguna razón específica para LDA, pero en general tiene mucha dimensión en los resultados de vectores de características con la necesidad de límites de decisión más complejos. Tener límites complejos también viene con una pregunta "¿En qué grado?" ya que también consideramos un ajuste excesivo. Como otro punto, con dimensiones adicionales la complejidad del algoritmo de aprendizaje también está aumentando. Por lo tanto, trabajar con un algoritmo de aprendizaje relativamente lento con un enorme vector de características empeora su evento laboral. Además de la dimensión, es posible que tenga una posibilidad cada vez mayor de tener funciones correlacionadas en las que no es bueno para muchos algoritmos de aprendizaje como Neural Net u otros.

Puede contar otras razones que se encuentran en "Maldición de la dimensionalidad", pero el hecho es tener un número suficiente de instancias con un vector de características conciso que se eliminan mediante algunas rutinas de selección de características.

erogol
fuente