¿Por qué es importante la selección de características para las tareas de clasificación?

11

Estoy aprendiendo sobre la selección de funciones. Puedo ver por qué sería importante y útil para la construcción de modelos. Pero centrémonos en las tareas de aprendizaje supervisado (clasificación). ¿Por qué es importante la selección de características para las tareas de clasificación?

Veo mucha literatura escrita sobre la selección de características y su uso para el aprendizaje supervisado, pero esto me desconcierta. La selección de características se trata de identificar qué características desechar. Intuitivamente, descartar algunas características parece autodestructivo: está desechando información. Parece que arrojar información no debería ayudar.

E incluso si eliminar algunas características ayuda, si estamos descartando algunas características y luego introduciendo el resto en un algoritmo de aprendizaje supervisado, ¿por qué necesitamos hacerlo nosotros mismos, en lugar de dejar que el algoritmo de aprendizaje supervisado lo maneje? Si alguna característica no es útil, ¿no debería un algoritmo de aprendizaje supervisado decente descubrirlo implícitamente y aprender un modelo que no use esa característica?

De manera intuitiva, hubiera esperado que la selección de características fuera un ejercicio inútil que nunca ayuda y que a veces puede doler. Pero el hecho de que sea tan ampliamente utilizado y escrito me hace sospechar que mi intuición es defectuosa. ¿Alguien puede dar alguna intuición de por qué la selección de características es útil e importante cuando se realiza un aprendizaje supervisado? ¿Por qué mejora el rendimiento del aprendizaje automático? ¿Depende de qué clasificador utilizo?

DW
fuente

Respuestas:

10

Tu intuición es bastante correcta. En la mayoría de las situaciones, la selección de características representa un deseo de explicación simple que resulta de tres malentendidos:

  1. El analista no se da cuenta de que el conjunto de características "seleccionadas" es bastante inestable, es decir, no es robusto, y que el proceso de selección cuando se realiza en otro conjunto de datos dará como resultado un conjunto de características bastante diferente. Los datos a menudo no poseen el contenido de información necesario para seleccionar las características "correctas". Este problema empeora si hay co-linealidades presentes.
  2. Las rutas, los mecanismos y los procesos son complejos en experimentos no controlados; El comportamiento humano y la naturaleza son complejos y no parsimoneos.
  3. La precisión predictiva se ve perjudicada al pedirle a los datos que le digan cuáles son las características importantes y cuáles son las relaciones con para las "importantes". Es mejor "usar un poco de cada variable" que usar todas algunas variables y ninguna para otras (es decir, usar contracción / penalización).Y

Algunas formas de estudiar esto:

  1. Haga más comparaciones de precisión predictiva entre el lazo , la red elástica y una penalización cuadrática estándar (regresión de cresta)
  2. Bootstrap mide la importancia variable de un bosque aleatorio y verifica su estabilidad
  3. Calcule los intervalos de confianza de bootstrap en los rangos de características potenciales, por ejemplo, en los rangos de pruebas parciales de asociación (o de cosas como Spearman univariante o Somers ) y vea que estos intervalos de confianza son extremadamente amplios , informándole directamente de la dificultad de la tarea. Mis notas del curso vinculadas desde http://biostat.mc.vanderbilt.edu/rms tienen un ejemplo de orden de clasificación de predictores de arranque mediante OLS.χ2ρDxy

Todo esto se aplica tanto a la clasificación como al concepto más general y útil de predicción.

Frank Harrell
fuente