Lista de técnicas de ingeniería de características.

Respuestas:

10

No hay una fuente definida sobre cómo hacer ingeniería de características. A menudo depende del problema que está tratando de resolver. Algunos dicen que es más un arte que una ciencia.

Pero revisaría algunos de los núcleos de kaggle de alto puntaje / soluciones ganadoras si están disponibles. Simplemente dirígete a kaggle y navega por las competiciones. Hay mucho material muy útil allí.

Además, el diario de investigación de aprendizaje automático tiene muchos documentos sobre ingeniería de características. Simplemente busque en su sitio http://www.jmlr.org/ .

Los siguientes enlaces son útiles y largos parafrasear:

  • Puede encontrar información sobre algunas de las mejores prácticas de ingeniería de características en Quora, vea este enlace
  • En el dominio del aprendizaje automático hay una página sobre ingeniería de características.
phiver
fuente
3

Imputación de datos faltantes:

  1. Análisis de caso completo

  2. Imputación media / mediana / moda

  3. Imputación de muestras aleatorias

  4. Reemplazo por valor arbitrario

  5. Indicador de valor perdido

  6. Imputación multivariante

Codificación categórica:

  1. Una codificación activa

  2. Codificación de conteo y frecuencia

  3. Codificación objetivo / codificación media

  4. Codificación ordinal

  5. Peso de la evidencia

  6. Codificación de etiqueta rara

  7. BaseN, hashing de características y otros

Transformación Variable:

  1. Logaritmo

  2. Recíproco

  3. Raíz cuadrada

  4. Exponencial

  5. Yeo-Johnson

  6. Box-Cox

Discretización:

  1. Discretización de frecuencia igual

  2. Discretización de igual longitud

  3. Discretización con arboles

  4. Discretización con ChiMerge

Eliminación de valores atípicos:

  1. Eliminar valores atípicos

  2. Tratar los valores atípicos como NaN

  3. Taponado, Windsorización

Escalado de características:

  1. Estandarización

  2. Escala MinMax

  3. Escala media

  4. Max Absolute Scaling

  5. Unidad de escalado de normas

Ingeniería de fecha y hora:

  1. Extracción de días, meses, años, trimestres, tiempo transcurrido.

Creación de características:

  1. Suma, resta, media, min, max, producto, cociente del grupo de características

Agregando datos de transacciones:

  1. Igual que el anterior pero en la misma ventana de función en el tiempo

Extracción de características del texto:

  1. Bolsa de palabras

  2. tfidf

  3. n-gramos

  4. word2vec

  5. extracción de temas

Y finalmente extrayendo características de las imágenes.

Un buen artículo que describe la mayoría de las técnicas anteriores: Ingeniería de características una descripción completa

Una buena lista de recursos para aprender más sobre ingeniería de características: los mejores recursos para aprender sobre ingeniería de características

Las herramientas de Python para la ingeniería de características se pueden encontrar en este hilo

DESCARGO DE RESPONSABILIDAD: Escribí los 2 artículos, y también soy el creador de 1 de los cursos recomendados para aprender sobre ingeniería de características.

Suela G
fuente