Estoy haciendo clasificación de imágenes usando el aprendizaje automático.
Supongamos que tengo algunos datos de entrenamiento (imágenes) y los dividiré en conjuntos de entrenamiento y validación. Y también quiero aumentar los datos (producir nuevas imágenes de las originales) mediante rotaciones aleatorias e inyección de ruido. El aumento se realiza sin conexión.
¿Cuál es la forma correcta de hacer aumento de datos?
Primero divida los datos en conjuntos de capacitación y validación, luego realice el aumento de datos en los conjuntos de capacitación y validación.
Primero divida los datos en conjuntos de entrenamiento y validación, luego haga el aumento de datos solo en el conjunto de entrenamiento.
Primero haga el aumento de datos en los datos, luego divida los datos en un conjunto de capacitación y validación.
Respuestas:
Primero divida los datos en conjuntos de capacitación y validación, luego realice el aumento de datos en el conjunto de capacitación.
Utiliza su conjunto de validación para tratar de estimar cómo funciona su método con datos del mundo real, por lo que solo debe contener datos del mundo real. Agregar datos aumentados no mejorará la precisión de la validación. En el mejor de los casos, dirá algo sobre qué tan bien responde su método al aumento de datos y, en el peor de los casos, arruinará los resultados de validación y la capacidad de interpretación.
fuente
nunca haga 3, ya que obtendrá fugas. por ejemplo, suponga que el aumento es un desplazamiento de 1 píxel a la izquierda. si la división no es consciente del aumento, puede obtener muestras de datos muy similares tanto en el tren como en la validación.
fuente
El aumento de datos significa agregar datos / información externos a los datos existentes que se están analizando.
Entonces, como toda la información aumentada se usaría para el aprendizaje automático, el siguiente proceso sería más adecuado:
fuente