Supongamos que he entrenado varios modelos en el conjunto de entrenamiento, elija el mejor usando el conjunto de validación cruzada y el rendimiento medido en el conjunto de prueba. Así que ahora tengo un mejor modelo final. ¿Debo volver a entrenarlo con todos mis datos disponibles o enviar una solución entrenada solo en el conjunto de entrenamiento? Si es esto último, ¿por qué?
ACTUALIZACIÓN: Como señaló @ P.Windridge, enviar un modelo reentrenado básicamente significa enviar un modelo sin validación. Pero podemos informar el rendimiento del conjunto de pruebas y, después de eso, volver a entrenar el modelo con datos completos y esperar que el rendimiento sea mejor, porque utilizamos nuestro mejor modelo y más datos. ¿Qué problemas pueden surgir de tal metodología?
Respuestas:
Casi siempre obtendrá un mejor modelo después de volver a montar la muestra completa. Pero como otros han dicho, no tienes validación. Este es un defecto fundamental en el enfoque de división de datos. La división de datos no solo es una oportunidad perdida para modelar directamente las diferencias de muestra en un modelo general, sino que es inestable a menos que toda la muestra sea quizás mayor de 15,000 sujetos. Es por eso que se necesitan 100 repeticiones de validación cruzada 10 veces (dependiendo del tamaño de la muestra) para lograr precisión y estabilidad, y por qué la rutina de arranque para una validación interna fuerte es aún mejor. El bootstrap también expone cuán difícil y arbitraria es la tarea de selección de características.
Describí los problemas con la validación 'externa' con más detalle en Bioestadística en la Sección de Investigación Biomédica 10.11.
fuente
No necesita volver a entrenar nuevamente. Cuando informa sus resultados, siempre informa los resultados de los datos de las pruebas porque brindan una comprensión mucho mejor. Mediante el conjunto de datos de prueba, podemos ver con mayor precisión qué tan bien es probable que un modelo se desempeñe con datos fuera de la muestra.
fuente