Proporcionó un tamaño de muestra "N" que planeo usar para pronosticar datos. ¿Cuáles son algunas de las formas de subdividir los datos para que yo use algunos de ellos para establecer un modelo y los datos restantes para validar el modelo?
Sé que no hay una respuesta en blanco y negro para esto, pero sería interesante conocer algunas "reglas generales" o proporciones generalmente utilizadas. Sé que en la universidad, uno de nuestros profesores solía decir modelo en un 60% y validar en un 40%.
fuente
Realmente depende de la cantidad de datos que tenga, el costo específico de los métodos y cómo desea exactamente que sea su resultado.
Algunos ejemplos:
Si tiene pocos datos, probablemente quiera usar la validación cruzada (k-fold, leave-one-out, etc.) Su modelo probablemente no necesitará muchos recursos para entrenar y probar de todos modos. Son buenas maneras de aprovechar al máximo sus datos.
Tiene muchos datos: probablemente desee tomar un conjunto de pruebas razonablemente grande, asegurando que habrá pocas posibilidades de que algunas muestras extrañas den mucha variación a sus resultados. ¿Cuántos datos debes tomar? Depende completamente de sus datos y modelo. En el reconocimiento de voz, por ejemplo, si tomara demasiados datos (digamos 3000 oraciones), sus experimentos tomarían días, ya que un factor en tiempo real de 7-10 es común. Si toma muy poco, depende demasiado de los altavoces que elija (que no están permitidos en el conjunto de entrenamiento).
¡Recuerde también que en muchos casos es bueno tener también un conjunto de validación / desarrollo!
fuente
Prueba 1:10: la relación de trenes es popular porque parece redonda, 1: 9 es popular debido a 10 CV, 1: 2 es popular porque también es redonda y vuelve a montar bootstrap. A veces, uno obtiene una prueba de algunos criterios específicos de datos, por ejemplo, el año pasado para la prueba, años antes para la capacitación.
La regla general es la siguiente: el tren debe ser lo suficientemente grande como para que la precisión no disminuya significativamente, y la prueba debe ser lo suficientemente grande como para silenciar las fluctuaciones aleatorias.
Aún así, prefiero CV, ya que también te da una distribución de error.
fuente
Como una extensión de la respuesta de k-fold, la elección "usual" de k es 5 o 10. El método de dejar uno afuera tiende a producir modelos que son demasiado conservadores. Para su información, aquí hay una referencia sobre ese hecho:
Shao, J. (1993), Linear Model Selection by Cross-Validation, Journal of the American Statistical Association, vol. 88, núm. 422, págs. 486-494
fuente