¿Cuál es la diferencia entre la generación de características y la extracción de características?

13

¿Alguien puede decirme cuál es el propósito de la generación de características? ¿Y por qué se necesita el enriquecimiento del espacio de características antes de clasificar una imagen? ¿Es un paso necesario?

¿Hay algún método para enriquecer el espacio de características?

Saratha Priya
fuente

Respuestas:

13

Generación de características : este es el proceso de tomar datos brutos y no estructurados y definir características (es decir, variables) para su uso potencial en su análisis estadístico. Por ejemplo, en el caso de la minería de texto, puede comenzar con un registro sin procesar de miles de mensajes de texto (por ejemplo, SMS, correo electrónico, mensajes de redes sociales, etc.) y generar funciones eliminando palabras de bajo valor (es decir, palabras vacías), utilizando cierto tamaño bloques de palabras (es decir, n-gramas) o aplicando otras reglas.

Extracción de características : después de generar características, a menudo es necesario probar las transformaciones de las características originales y seleccionar un subconjunto de este conjunto de posibles características originales y derivadas para usar en su modelo (es decir, extracción y selección de características). Probar valores derivados es un paso común porque los datos pueden contener información importante que tiene un patrón o relación no lineal con su resultado, por lo tanto, la importancia del elemento de datos solo puede ser evidente en su estado transformado (por ejemplo, derivados de orden superior). El uso de demasiadas características puede dar como resultado una colinealidad múltiple o confundir modelos estadísticos, mientras que la extracción del número mínimo de características para el propósito de su análisis sigue el principio de la parsimonia.

Mejorar su espacio de características de esta manera es a menudo un paso necesario en la clasificación de imágenes u otros objetos de datos porque el espacio de características sin procesar generalmente se llena con una cantidad abrumadora de datos no estructurados e irrelevantes que comprenden lo que a menudo se conoce como "ruido" en el paradigma de una "señal" y "ruido" (es decir, algunos datos tienen valor predictivo y otros no). Al mejorar el espacio de funciones, puede identificar mejor los datos importantes que tienen un valor predictivo u otro en su análisis (es decir, la "señal") mientras elimina la información de confusión (es decir, "ruido").

Hack-R
fuente
2
¡Buena respuesta! (+1)
Aleksandr Blekh
1
¡Es un placer!
Aleksandr Blekh
Gracias. ¿Hay algún método para realizar el enriquecimiento del espacio de características?
Saratha Priya
Seguro. Hay muchos de esos métodos. Por ejemplo, el filtro Gabor es un algoritmo de detección de borde de filtro de paso de banda comúnmente utilizado para la generación de características en reconocimiento facial y clasificación de texturas. Esto se puede usar en combinación con algoritmos de clasificación como máquinas de vectores de soporte.
Hack-R
¿Puedo usar eso para el enriquecimiento de características en la clasificación de imágenes?
Saratha Priya