Aquí está el problema.
Con un algoritmo de aprendizaje opaco, tiene que averiguar si su algoritmo realmente ha aprendido algo sobre alguna estructura más profunda común al área problemática deseada (suponiendo que se encuentre algo), o si acaba de aprender a reconocer algunas entradas particulares y escupir la respuesta deseada solo para esas entradas (similar a los niños de la escuela que simplemente "memorizan la prueba" pero no tienen idea de lo contrario). Este último no es muy útil cuando los datos de entrenamiento consisten en solo una pequeña fracción del espacio del problema deseado.
Entonces, para descubrirlo, entrena su algoritmo en un conjunto de datos hasta que escupe las respuestas correctas. Luego cambia la entrada a algunos datos de prueba diferentes que el algoritmo entrenado nunca ha visto antes, y ve si aún puede darte respuestas útiles, o si realmente solo funcionó para las únicas cosas en el conjunto de entrenamiento original. Ese es el conjunto de datos de prueba.
Si tiene datos del mundo real, es común dividirlos en dos conjuntos disjuntos, y no dejar que el algoritmo vea el conjunto de pruebas durante el entrenamiento. Similar al profesor que cierra las preguntas del cuestionario hasta el final del semestre.
Para responder directamente a las preguntas de los OP: "¿Son los datos de entrenamiento los datos que tendrá después de la etapa de preprocesamiento, que también se llama extracción de características?
No, eso (es decir, extracción de características) no es lo que hace que un conjunto de datos "datos de entrenamiento". Tendrás que extraer características de la misma forma que los datos de entrenamiento de tus datos de prueba. Aquí hay un conjunto de pasos de ejemplo para distinguir estos términos:
Donde los datos de prueba son la entrada original. Estoy en lo cierto?
Los datos de prueba son los datos que guarda a un lado mientras selecciona / aprende los parámetros de su modelo. Luego usa estos datos para probar qué tan bueno de un modelo tiene. La suposición clave es que su distribución de datos de prueba es la misma que la distribución de datos de su tren.
fuente