Selección de características y relación de precisión de clasificación

10

Una de las metodologías para seleccionar un subconjunto de sus funciones disponibles para su clasificador es clasificarlas de acuerdo con un criterio (como la ganancia de información) y luego calcular la precisión utilizando su clasificador y un subconjunto de las características clasificadas.

Por ejemplo, si sus características son A, B, C, D, E, y si están clasificadas de la siguiente manera D,B,C,E,A, entonces calcula la precisión utilizando D, D, Bluego D, B, C, entonces D, B, C, E... hasta que su precisión comience a disminuir. Una vez que comienza a disminuir, deja de agregar funciones.

Ejemplo 1

En el ejemplo 1 (arriba), elegiría características F, C, D, Ay soltaría las otras características a medida que disminuyan su precisión.

Esa metodología supone que agregar más funciones a su modelo aumenta la precisión de su clasificador hasta cierto punto después del cual agregar funciones adicionales disminuye la precisión (como se ve en el ejemplo 1)

Sin embargo, mi situación es diferente. He aplicado la metodología descrita anteriormente y descubrí que agregar más funciones disminuyó la precisión hasta un punto después del cual aumenta.

Ejemplo2

En un escenario como este, ¿cómo elige sus características? ¿Solo recoges Fy sueltas el resto? ¿Tienes alguna idea de por qué la precisión disminuiría y luego aumentaría?

Paulina
fuente

Respuestas:

4

La selección de características implica varios enfoques, al igual que los métodos para el aprendizaje automático. La idea es mantener la característica más relevante pero no redundante para el modelo predictivo que puede proporcionar una precisión óptima.

En su caso, no puedo ver qué método está utilizando para la selección de funciones, pero suponiendo que no tiene en cuenta la naturaleza multivariante de la dependencia de funciones. Supongamos que tiene N características, probablemente la razón por la que la precisión de su modelo cae después de n características principales, pero mejora al agregar n + k (donde n <k <N cuando las características están en orden descendente en función de la ganancia de información) dependencia (más relevancia y menos redundancia) de las principales funciones n y k. La selección de características univariadas no necesariamente obtiene la precisión óptima del modelo cuando las características son interdependientes y no se excluyen mutuamente. Desde el punto de vista filosófico, el conjunto de características óptimas es análogo a una cita de Aristóteles: "¡El todo es mayor que la suma de sus partes"!

Para una selección de funciones óptima, a menudo estoy en el paquete Caret en un Rlenguaje en el que uno puede hacer la selección de funciones usando la eliminación de funciones recursivas (RFE) entre varios otros enfoques. También hay un paquete llamado mRMRe para hacer la selección de características en función de la máxima relevancia, redundancia mínima.

Mejor
Samir

Samir
fuente
¡Estaba redactando una respuesta desde el móvil y no me di cuenta de que las dos respuestas anteriores son bastante parecidas! Mi error al no comentar a esos y en lugar de responder por separado.
Samir
Su punto sobre las funciones redundantes es perfecto. Lo he verificado y puedo confirmar que las 3 características con una alta ganancia de información son de hecho redundantes (altamente correlacionadas entre sí). Esto explica por qué la precisión disminuye cuando se usan esas funciones conjuntamente: después de la primera función, la función adicional no agrega una nueva "dimensión de datos" a mi conjunto de datos y en su lugar, crean ruido porque solo "repiten" lo que los clasificadores ya saben, gracias La primera característica. Sin embargo, las otras características, con una menor ganancia de información, agregan una nueva dimensión de datos.
Pauline
1

Sobre la pregunta específica

No debe esperar un comportamiento específico (aumentar y luego disminuir la precisión) mientras selecciona un subconjunto de características, ya que esto dependerá totalmente del problema (y de cada modelo)

Cuando calcula la importancia variable de las características, tiene en cuenta la contribución de todas las características al mismo tiempo. Una vez que seleccione un subconjunto de características y cree un nuevo modelo, obtendrá una representación o modelo diferente del problema (que no tiene en cuenta las otras características, informativas o no).

Ahora, desea seleccionar la mejor cantidad de funciones. Esto también dependerá de su problema y de las características o condiciones que deba cumplir. Si realmente necesita tener la menor cantidad de características posibles mientras optimiza la precisión de la predicción, puede seleccionar la menor cantidad de características que logre el menor error ... y, si tiene diferentes casos con errores muy similares, elija un umbral, observe el casos principales cuya diferencia de errores por pares es inferior al umbral, y seleccione uno (por ejemplo, el que tiene un menor número de características, ya que los errores son marginalmente iguales).

Considere la eliminación de funciones recursivas

El método que está utilizando podría no ser el enfoque más estable. Debería considerar intentar algo como la eliminación recursiva de características (RFE), un método de envoltura donde construye el clasificador, clasifica todas las características, elimina las peores y reconstruye el modelo en las características restantes. Luego repites el método nuevamente. Esto tenderá a ser más estable ... y debe esperar una clasificación diferente cada vez.

La varianza también es un factor crítico

Más allá del error real (o precisión) que el modelo le está dando con cada subconjunto, debe considerar construir cada modelo a través de un procedimiento de validación cruzada y tener en cuenta tanto el error medio de los pliegues como la desviación estándar de estos errores. Si la desviación estándar es alta, entonces el subconjunto seleccionado de características no es estable y tenderá a variar mucho cuando se pruebe con datos no vistos. Esto es importante para evaluar las capacidades de generalización esperadas del modelo, y podría ser útil para decidir entre modelos (construidos con diferentes subconjuntos).

Javierfdr
fuente
1

Debe eliminar las funciones redundantes e irrelevantes de su conjunto de datos. Se puede ver que hay características irrelevantes y redundantes en su conjunto de datos.

Le recomiendo que mire el algoritmo de selección de características de relevancia mínima de redundancia mínima (MRMR). Es un filtro muy popular y potente antes de entrenar al modelo.

"Sin embargo, mi situación es diferente. He aplicado la metodología descrita anteriormente y descubrí que agregar más funciones disminuyó la precisión hasta un punto después del cual aumenta".

También es posible, pero esto conducirá a un modelo más complejo.

Rapry
fuente
1

Generalmente hay tres clases de algoritmos de selección de características.

  • Filtra los métodos que analizan las propiedades intrínsecas de los datos y asignan una puntuación a cada característica, sin involucrar ningún modelo. Algunos ejemplos son cambio de pliegue, prueba t de Student.

  • Métodos de envoltura que seleccionan diferentes subconjuntos de características a través de algoritmos específicos. Luego encajamos en el modelo de clasificación o regresión para evaluar cada selección y elegir la que tenga el mejor valor de condición física. Algunos ejemplos son Algoritmo genético para la selección de características, optimización de Monte Carlo para la selección de características, selección gradual hacia adelante / atrás.

  • Métodos integrados que permiten que el modelo mismo elija las características que mejor contribuyen a la aptitud del modelo. Los típicos son LASSO, regresión de cresta.

Aquí hay un gran artículo en detalles de introducción a la selección de funciones .

Jason Feng
fuente
El método presentado en la publicación es un ejemplo de filtro. El filtro ha clasificado todas las características, y el tema es cómo seleccionar un subconjunto de estas características clasificadas.
Pauline