Datos de prueba versus datos de entrenamiento

7

Estoy leyendo el libro del obispo sobre reconocimiento de patrones y aprendizaje automático. Al pasar por la sección de introducción, no estoy seguro si obtengo las diferencias entre los dos términos ampliamente utilizados "datos de prueba" y "datos de capacitación". ¿Son los datos de entrenamiento los datos que tendrá después de la etapa de preprocesamiento, que también se llama extracción de características? Donde los datos de prueba son la entrada original. Estoy en lo cierto?

Gigili
fuente

Respuestas:

6

Aquí está el problema.

Con un algoritmo de aprendizaje opaco, tiene que averiguar si su algoritmo realmente ha aprendido algo sobre alguna estructura más profunda común al área problemática deseada (suponiendo que se encuentre algo), o si acaba de aprender a reconocer algunas entradas particulares y escupir la respuesta deseada solo para esas entradas (similar a los niños de la escuela que simplemente "memorizan la prueba" pero no tienen idea de lo contrario). Este último no es muy útil cuando los datos de entrenamiento consisten en solo una pequeña fracción del espacio del problema deseado.

Entonces, para descubrirlo, entrena su algoritmo en un conjunto de datos hasta que escupe las respuestas correctas. Luego cambia la entrada a algunos datos de prueba diferentes que el algoritmo entrenado nunca ha visto antes, y ve si aún puede darte respuestas útiles, o si realmente solo funcionó para las únicas cosas en el conjunto de entrenamiento original. Ese es el conjunto de datos de prueba.

Si tiene datos del mundo real, es común dividirlos en dos conjuntos disjuntos, y no dejar que el algoritmo vea el conjunto de pruebas durante el entrenamiento. Similar al profesor que cierra las preguntas del cuestionario hasta el final del semestre.

hotpaw2
fuente
6

Cuando utiliza algoritmos de aprendizaje automático en conjuntos de datos, utiliza una parte de los datos (el conjunto de entrenamiento) para entrenar su algoritmo (es decir, extracción de características). Una vez que se completa la capacitación, deberá evaluar el rendimiento del algoritmo entrenado y hacerlo al aplicarlo a los nuevos datos, es decir, la segunda parte de sus datos originales (los datos de la prueba).

Con esta estrategia, podrá evaluar si su algoritmo entrenado realmente extrae características válidas de sus datos (es decir, funciona bien en los datos de entrenamiento y en los datos de prueba), o si fue "sobreaprendido" o "sobreajustado" (es decir, , solo funciona bien en los datos de entrenamiento y es malo en los datos de prueba).

Para obtener más información, consulte wikipedia sobre conjunto de entrenamiento , conjunto de prueba y validación cruzada .

H.Muster
fuente
Leí esos artículos de WP pero no pude hacer una comparación entre los dos. Gracias por tu respuesta de todos modos.
Gigili
0

Para responder directamente a las preguntas de los OP: "¿Son los datos de entrenamiento los datos que tendrá después de la etapa de preprocesamiento, que también se llama extracción de características?

No, eso (es decir, extracción de características) no es lo que hace que un conjunto de datos "datos de entrenamiento". Tendrás que extraer características de la misma forma que los datos de entrenamiento de tus datos de prueba. Aquí hay un conjunto de pasos de ejemplo para distinguir estos términos:

  1. Obtenga datos sin procesar. [Este conjunto consta de datos de tren / validación / prueba].
  2. Divida los datos en divisiones de tren / validación / prueba.
  3. Utilice los datos del tren solo para ajustar / clasificar sus datos utilizando modelos como SVM, redes neuronales, etc.
  4. Ahora use datos de prueba / validación para verificar qué tan bueno de un modelo tiene.

Donde los datos de prueba son la entrada original. Estoy en lo cierto?

Los datos de prueba son los datos que guarda a un lado mientras selecciona / aprende los parámetros de su modelo. Luego usa estos datos para probar qué tan bueno de un modelo tiene. La suposición clave es que su distribución de datos de prueba es la misma que la distribución de datos de su tren.

Aniket
fuente