Al dividir mis datos etiquetados en conjuntos de entrenamiento, validación y prueba, he escuchado de todo, desde 25/25/25 hasta 85/5/10. Estoy seguro de que esto depende de cómo va a utilizar su modelo y de cuán propenso es sobreajustar su algoritmo de aprendizaje. ¿Hay alguna forma de decidir o es todo por regla general? Incluso ELSII parece vago sobre el tema.
machine-learning
cross-validation
Ed bien
fuente
fuente
Respuestas:
La validación de muestra dividida sin remuestreo (validación cruzada, o mejor: bootstrapping) no es confiable a menos que tenga una muestra enorme (p. Ej., ). Por lo general, se prefiere una validación interna rigurosa utilizando el bootstrap, suponiendo que programe todos los pasos de selección del modelo para que puedan repetirse en cada bucle de bootstrap. Y uno de los problemas con los enfoques de muestra dividida, además de la volatilidad, es la dificultad de elegir las fracciones divididas.norte> 20000
fuente
Dependiendo de la aplicación, es probable que pueda omitir la incertidumbre y, en su lugar, utilizar el arranque.
Wiki: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)
Pregunta relacionada aquí. Comprensión de bootstrapping para validación y selección de modelo
fuente
Por supuesto, también debe decidir sobre las proporciones de división para el remuestreo (doble) ...
Sin embargo, el remuestreo generalmente funciona para una amplia gama de relaciones de división, si tiene en cuenta
Lo que puede hacer si no está seguro de si es necesario volver a muestrear es: volver a muestrear algunas veces. Suficiente para que pueda medir si el muestreo fue necesario.
Con estos resultados, puede decidir si debe agregar más iteraciones de remuestreo o si las cosas están bien como están.
fuente
No hay una regla dura y rápida para esto. Pero el análisis empírico mostró que cuantos más datos de entrenamiento tenga, mejor será su precisión. Pero hagas lo que hagas, no olvides reunir todos tus datos de entrenamiento / validación / prueba y hacer un CV de 10 veces cuando estés terminando. Esto proporciona una muy buena idea de tener un problema de sobreajuste / falta de ajuste durante su experimento.
fuente
Creo que todo importa sobre qué preguntas estás tratando de responder. ¿Está interesado en una visión precisa de la diferencia de rendimiento entre múltiples algoritmos? Entonces necesita un conjunto de validación bastante grande. ¿Está interesado en el rendimiento de un algoritmo para N = 10000 muestras? Luego, debe poner al menos 10000 muestras en el conjunto de trenes.
Un conjunto de validación más grande le brinda más certeza estadística sobre sus resultados, pero la certeza es sobre el rendimiento de un algoritmo que se entrenó en menos muestras, que al final podría no ser lo que busca.
fuente