La ingeniería de características es a menudo un componente importante para el aprendizaje automático (se utilizó mucho para ganar la Copa KDD en 2010 ). Sin embargo, creo que la mayoría de las técnicas de ingeniería de características
- destruir cualquier significado intuitivo de las características subyacentes o
- son muy específicos para un dominio particular o incluso tipos particulares de características.
Un ejemplo clásico de lo primero sería el análisis de componentes principales. Me parece que cualquier conocimiento que un experto en la materia tenga sobre las características se destruiría al convertir esas características en componentes principales.
Compare eso con una técnica simple de convertir una fecha en características para "día del mes" y "día de la semana". El significado subyacente aún se conserva en las nuevas características, pero obviamente esta técnica en particular solo se aplica a fechas y no a características arbitrarias.
¿Existe algún cuerpo estándar de técnicas de ingeniería de características que no destruyan el significado de las características subyacentes y sean aplicables a dominios arbitrarios (o al menos a una amplia variedad de dominios)?
fuente
Respuestas:
Soy consciente de un método de descomposición (pero tal vez hay más ...) que pueden ser útiles en un escenario como el que usted describe. Es como 2D-PCA: un método de descomposición de alto orden en el que la descomposición (es decir, los factores) tienen algún significado. Puede ver ejemplos y leer sobre esto aquí y aquí e intente aquí
fuente
Los métodos recientes de aprendizaje profundo que utilizan la máquina de Boltzmann restringida han mostrado buenas características en varios tipos de datos (audio, imágenes, texto).
Dado que estos métodos crean un modelo generativo, a menudo puede generar muestras realmente agradables a partir del modelo.
Echa un vistazo a las publicaciones de Hinton. http://www.cs.toronto.edu/~hinton/
Estos métodos no son totalmente generales (ejecutan el mismo código en todos los datos), pero el modelo subyacente suele ser similar.
fuente