En muchas aplicaciones de aprendizaje automático, los llamados métodos de aumento de datos han permitido construir mejores modelos. Por ejemplo, suponga un conjunto de entrenamiento de imágenes de gatos y perros. Al girar, reflejar, ajustar el contraste, etc., es posible generar imágenes adicionales a partir de las originales.
En el caso de las imágenes, el aumento de datos es relativamente sencillo. Sin embargo, supongamos (por ejemplo) que uno tiene un conjunto de entrenamiento de muestras y unos cientos de variables continuas que representan cosas diferentes. El aumento de datos ya no parece tan intuitivo. ¿Qué se podría hacer en tal caso?
Respuestas:
Entiendo que esta pregunta involucra tanto la construcción de características como el manejo de la gran cantidad de características que ya tiene + construirá, en relación con sus observaciones (
N << P
).Construcción de características
Ampliando el comentario de @ yasin.yazici, algunas formas posibles de aumentar los datos serían:
Estoy seguro de que faltan muchos más.
Selección de características / reducción de dimensionalidad
Puede reducir la dimensionalidad con técnicas como PCA (aunque quizás no después de aumentar sus datos con variables de PCA). Alternativamente, puede usar algoritmos que realicen la selección de características para usted, como lazo, bosque aleatorio, etc.
fuente
Me enfrenté a un problema similar en el que quería aumentar los datos numéricos no etiquetados. Aumenté los datos de la siguiente manera: (Digamos que tengo un conjunto de datos de tamaño 100 * 10).
fuente