¿Debería formarse el modelo final (listo para producción) en datos completos o solo en el conjunto de entrenamiento?

23

Supongamos que he entrenado varios modelos en el conjunto de entrenamiento, elija el mejor usando el conjunto de validación cruzada y el rendimiento medido en el conjunto de prueba. Así que ahora tengo un mejor modelo final. ¿Debo volver a entrenarlo con todos mis datos disponibles o enviar una solución entrenada solo en el conjunto de entrenamiento? Si es esto último, ¿por qué?

ACTUALIZACIÓN: Como señaló @ P.Windridge, enviar un modelo reentrenado básicamente significa enviar un modelo sin validación. Pero podemos informar el rendimiento del conjunto de pruebas y, después de eso, volver a entrenar el modelo con datos completos y esperar que el rendimiento sea mejor, porque utilizamos nuestro mejor modelo y más datos. ¿Qué problemas pueden surgir de tal metodología?

Yurii
fuente
¿Estás trabajando en un entorno regulado externamente? (es decir, posiblemente debe enviar el modelo validado, y su pregunta es solo hipotética, pero vale la pena discutirla de todos modos :)). Editar: ok, veo que has editado tu publicación.
P.Windridge
¿Cree que los datos de su prueba son representativos de la población / cubren una parte de la población que no está en la muestra de desarrollo? ¿Su muestra de desarrollo original es deficiente de alguna manera?
P.Windridge
@ P.Windridge bueno, mi pregunta es simplemente hipotética. Sobre su segundo comentario, creo que nadie debería esperar que un ingeniero entrene un buen modelo mientras le da datos no representativos.
Yurii
1
No puedo imaginar muchas situaciones en las que enviarías un modelo sin validación. Prefiero considerar disminuir el tamaño de la muestra de prueba (¡sujeto a que todavía sea lo suficientemente grande como para validarla!). Una discusión posiblemente más interesante es sobre los pros / contras de / seleccionar / el modelo basado en / todos / los datos, y luego entrenarlo usando una submuestra y luego validar el resto.
P.Windridge
1
Pregunta similar = stats.stackexchange.com/questions/174026/… , aunque creo que podría necesitar más discusión
P.Windridge

Respuestas:

15

Casi siempre obtendrá un mejor modelo después de volver a montar la muestra completa. Pero como otros han dicho, no tienes validación. Este es un defecto fundamental en el enfoque de división de datos. La división de datos no solo es una oportunidad perdida para modelar directamente las diferencias de muestra en un modelo general, sino que es inestable a menos que toda la muestra sea quizás mayor de 15,000 sujetos. Es por eso que se necesitan 100 repeticiones de validación cruzada 10 veces (dependiendo del tamaño de la muestra) para lograr precisión y estabilidad, y por qué la rutina de arranque para una validación interna fuerte es aún mejor. El bootstrap también expone cuán difícil y arbitraria es la tarea de selección de características.

Describí los problemas con la validación 'externa' con más detalle en Bioestadística en la Sección de Investigación Biomédica 10.11.

Frank Harrell
fuente
La terminología en mi campo (química analítica) consideraría cualquier división de los datos que usted hace (antes) al comenzar el entrenamiento en gran medida como una validación interna . La validación externa comenzaría en algún lugar entre hacer un estudio de validación dedicado y ensayos en anillo.
cbeleites apoya a Monica el
0

No necesita volver a entrenar nuevamente. Cuando informa sus resultados, siempre informa los resultados de los datos de las pruebas porque brindan una comprensión mucho mejor. Mediante el conjunto de datos de prueba, podemos ver con mayor precisión qué tan bien es probable que un modelo se desempeñe con datos fuera de la muestra.

Umar
fuente
44
Podemos informar el rendimiento del conjunto de pruebas y, luego, volver a entrenar el modelo con datos completos, esperando con rectitud que el rendimiento sea mejor, porque utilizamos el mejor modo y más datos. ¿Hay algún defecto en mi razonamiento?
Yurii
Bueno, si después de la prueba, recopila más datos , entonces puede volver a dividir los datos, volver a entrenarlos nuevamente, luego volver a probarlos y luego informar el resultado de la prueba.
Umar
66
Al no estimar la muestra completa, renuncia a la oportunidad de una mayor eficiencia. Esto no está justificado. También estoy de acuerdo con el comentario de Yurii arriba.
Richard Hardy
@ Richard Hardy, ¿qué hay de malo en mi comentario?
Umar
Se explica en mi último comentario. Al no utilizar todos los datos para estimar el modelo, está renunciando a la mayor eficiencia disponible. ¿Por qué hacer eso?
Richard Hardy