Tutoriales para ingeniería de características

19

Como todos saben, la ingeniería de características es extremadamente importante para el aprendizaje automático, sin embargo, encontré pocos materiales asociados con esta área. Participé en varias competiciones en Kaggle y creo que las buenas características pueden ser incluso más importantes que un buen clasificador en algunos casos. ¿Alguien sabe algún tutorial sobre ingeniería de características, o es esta una experiencia pura?

FindBoat
fuente
1
¿Te refieres al preprocesamiento de características (normalización y otras transformaciones) o selección de características?
MattBagg
2
@ mb3041023 No, el paso anterior a ambos, en el que convierte algunos datos sin procesar como textos, imágenes o series en algunos atributos utilizables.
8
En mi experiencia, una gran parte del problema del aprendizaje automático es, literalmente, configurar el problema correcto para ser resuelto / optimizado (es decir, características, representación de características, selección, etc.). Me encantaría ver un libro dedicado exclusivamente a la selección empírica de características y al preprocesamiento con muchas ilustraciones de la vida real (como kaggle). Si alguien sabe de uno, por favor. enviar. Hay varios libros dedicados a cosas como la limpieza de datos / imputación de datos, pero es muy necesario un texto práctico dedicado sobre la selección de funciones.
Pat
2
Eche un vistazo a: "Extracción de características: Fundamentos y aplicaciones", 2006
jasonb
2
@jasonb, ¿qué tal autor, tamaño, precio y un enlace, algo como esto: Guyon ed., Feature Extraction: Foundations and Applications 2006, 778p, $ 306
denis

Respuestas:

7

Yo diría que la experiencia: las ideas básicas son:

  • para adaptarse a cómo funcionan los clasificadores; dar un problema de geometría a un árbol, una dimensión sobredimensionada a un kNN y datos de intervalo a un SVM no son buenas ideas
  • eliminar tantas no linealidades como sea posible; esperar que algún clasificador haga el análisis de Fourier por dentro es bastante ingenuo (incluso si desperdicia mucha complejidad allí)
  • Hacer características genéricas para todos los objetos para que algunos muestreos en la cadena no los eliminen
  • verifique trabajos anteriores: a menudo la transformación utilizada para visualizar o probar tipos similares de datos ya está ajustada para descubrir aspectos interesantes
  • evitar transformaciones inestables y optimizadas como PCA que pueden conducir a un sobreajuste
  • experimentar mucho

fuente
¿Cómo define "datos de intervalo"? Busqué en Google y encontré muchas definiciones diferentes.
poder
¿Puedes dar más detalles sobre el punto PCA?
Daniel Velkov
XEl |X-prima más cercanaEl |<0,3
@DanielVelkov Cuando inicia PCA en un dato bastante ruidoso, los componentes a menudo son inestables; Esto promueve la idea de hacer un PCA global en todo el conjunto disponible, lo que filtra información y es una forma directa de estropear la evaluación.
@mbq, ¿qué pasa si PCA se ejecuta solo en el conjunto de entrenamiento, como se supone que debe ser?
Daniel Velkov
1

Hay un libro de O'Reilly llamado " Feature Engineering for Machine Learning " de Zheng et al.

Leí el libro y cubre diferentes tipos de datos (p. Ej., Categórico, texto ...) y describe diferentes aspectos de la ingeniería de características que lo acompañan. Esto incluye cosas como la normalización de datos, selección de características, tf-idf en el texto.

NumSim
fuente