División de datos de series temporales en conjuntos de tren / prueba / validación

11

¿Cuál es la mejor manera de dividir los datos de series temporales en conjuntos de tren / prueba / validación, donde el conjunto de validación se usaría para el ajuste de hiperparámetros?

Tenemos 3 años de datos de ventas diarias, y nuestro plan es usar 2015-2016 como datos de capacitación, luego muestrear al azar 10 semanas de los datos de 2017 para usar como conjunto de validación, y otras 10 semanas de datos de 2017 para El conjunto de prueba. Luego haremos un avance en cada uno de los días en el conjunto de prueba y validación.

meraxes
fuente

Respuestas:

7

Debe usar una división basada en el tiempo para evitar el sesgo de anticipación. Entrena / validación / prueba en este orden por tiempo.

El conjunto de prueba debe ser la parte más reciente de los datos. Debe simular una situación en un entorno de producción, donde después de entrenar un modelo evalúa los datos que llegan después del momento de la creación del modelo. Por lo tanto, el muestreo aleatorio que utiliza para la validación y la capacitación no es una buena idea.

viento
fuente
4

Creo que la forma más completa de aprovechar sus datos de series de tiempo para capacitación / validación / prueba / predicción es esta:

ingrese la descripción de la imagen aquí

¿La imagen se explica por sí misma? Si no, por favor comente y agregaré más texto ...

elemolotiv
fuente
3

En lugar de crear solo un conjunto de entrenamiento / conjunto de validación, podría crear más conjuntos de este tipo.

El primer conjunto de capacitación podría ser, digamos, datos de 6 meses (primer semestre de 2015) y el conjunto de validación sería los siguientes tres meses (julio-agosto de 2015). El segundo conjunto de entrenamiento sería una combinación del primer conjunto de entrenamiento y validación. El conjunto de validación es entonces los próximos tres meses (septiembre-octubre de 2015). Y así.

Esta es una variación de la validación cruzada K-Fold donde los conjuntos de entrenamiento son una combinación del conjunto de entrenamiento y validación anterior.

aathiraks
fuente