¿Cómo hacer un aumento de datos y una división de validación de trenes?

14

Estoy haciendo clasificación de imágenes usando el aprendizaje automático.

Supongamos que tengo algunos datos de entrenamiento (imágenes) y los dividiré en conjuntos de entrenamiento y validación. Y también quiero aumentar los datos (producir nuevas imágenes de las originales) mediante rotaciones aleatorias e inyección de ruido. El aumento se realiza sin conexión.

¿Cuál es la forma correcta de hacer aumento de datos?

  1. Primero divida los datos en conjuntos de capacitación y validación, luego realice el aumento de datos en los conjuntos de capacitación y validación.

  2. Primero divida los datos en conjuntos de entrenamiento y validación, luego haga el aumento de datos solo en el conjunto de entrenamiento.

  3. Primero haga el aumento de datos en los datos, luego divida los datos en un conjunto de capacitación y validación.

yangjie
fuente
1
"Aumento de datos" tiene más de un significado; sería útil editar su pregunta para aclarar cuál es la suya, o simplemente para dar un ejemplo.
Scortchi - Restablece a Monica
Si planea hacer TTA, entonces el aumento se debe aplicar al conjunto de validación como al conjunto de prueba.
abby yorker

Respuestas:

18

Primero divida los datos en conjuntos de capacitación y validación, luego realice el aumento de datos en el conjunto de capacitación.

Utiliza su conjunto de validación para tratar de estimar cómo funciona su método con datos del mundo real, por lo que solo debe contener datos del mundo real. Agregar datos aumentados no mejorará la precisión de la validación. En el mejor de los casos, dirá algo sobre qué tan bien responde su método al aumento de datos y, en el peor de los casos, arruinará los resultados de validación y la capacidad de interpretación.

burk
fuente
Tengo bastante curiosidad acerca de algo en su respuesta. Si mi criterio para dejar de entrenar un CNN es reducir la pérdida de validación, ¿cree que el aumento de datos en los datos de validación es una buena opción?
loco
1
No, sigo pensando que eso "arruinaría los resultados de validación y la interpretabilidad", ya que la precisión de la validación ya no es un buen indicador de la precisión de los nuevos datos no vistos si aumenta los datos de validación.
burk
así que no necesitamos aplicar el aumento de datos en la validación y prueba de datos
Aadnan Farooq A
@AadnanFarooqA No. Normalmente, debe hacer las mismas operaciones en sus datos de prueba y validación que tiene la intención de hacer en sus datos invisibles cuando utiliza su modelo para las predicciones.
burk
1
@AadnanFarooqA Normalmente, solo debe aplicar el aumento en los datos de entrenamiento, después de la división.
burk
4

nunca haga 3, ya que obtendrá fugas. por ejemplo, suponga que el aumento es un desplazamiento de 1 píxel a la izquierda. si la división no es consciente del aumento, puede obtener muestras de datos muy similares tanto en el tren como en la validación.

eyaler
fuente
0

El aumento de datos significa agregar datos / información externos a los datos existentes que se están analizando.

Entonces, como toda la información aumentada se usaría para el aprendizaje automático, el siguiente proceso sería más adecuado:

Hacer aumento de datos -> División de datos

Dawny33
fuente
Gracias por la respuesta. ¿Está bien que una muestra y la muestra aumentada, que es bastante similar a la original, se distribuyan en diferentes conjuntos?
yangjie
¿Te refieres a los datos existentes como un conjunto de entrenamiento y los datos aumentados como un conjunto de validación? Entonces, NO
Dawny33
La división es aleatoria, por lo que quiero decir que si realizo un aumento de datos y luego divido los datos, es probable que algunos datos existentes (no todos) se dividan en el conjunto de entrenamiento, mientras que los datos aumentados van al conjunto de validación.
yangjie
Por aumento, ¿quieres decir anexar? Los datos aumentados son los datos que admiten datos actuales en todos los puntos. Entonces, si la división es aleatoria, entonces la división daría como resultado la misma cantidad de datos aumentados en ambos conjuntos, como la de los datos existentes
Dawny33
¿Hay alguna referencia de papel para esto?
Aadnan Farooq A