Pedido de series de tiempo para aprendizaje automático

14

Después de leer uno de los "Consejos de investigación" de RJ Hyndman sobre validación cruzada y series de tiempo, volví a una vieja pregunta mía que trataré de formular aquí. La idea es que en los problemas de clasificación o regresión, el orden de los datos no es importante y, por lo tanto, se puede usar la validación cruzada de k- pliegues. Por otro lado, en series de tiempo, el orden de los datos es obviamente de gran importancia.

Sin embargo, cuando se utiliza un modelo de máquina de la serie de tiempo de predicción de aprendizaje, es una estrategia común para formar de nuevo la serie en un conjunto de "vectores de entrada-salida", que, durante un tiempo t , tienen la forma ( y t - n + 1 , . . . , Y t - 1 , y t ; y t + 1 ) .{y1,...,yT}t(yt-norte+1,...,yt-1,yt;yt+1)

Ahora, una vez realizada esta remodelación, ¿podemos considerar que no es necesario ordenar el conjunto resultante de "vectores de entrada-salida"? Si usamos, por ejemplo, una red neuronal de avance con n entradas para "aprender" estos datos, llegaríamos a los mismos resultados sin importar el orden en que mostramos los vectores al modelo. Y, por lo tanto, ¿podríamos usar la validación cruzada k-fold de la manera estándar, sin la necesidad de ajustar el modelo cada vez?

jla
fuente

Respuestas:

2

La respuesta a esta pregunta es que funcionará bien siempre que su orden de modelo esté correctamente especificada, ya que los errores de su modelo serán independientes.

En este trabajo aquí muestra que si un modelo tiene una pobre validación cruzada a subestimar lo pobre que realmente es. En todos los demás casos, la validación cruzada hará un buen trabajo, en particular, un mejor trabajo que la evaluación fuera de la muestra que generalmente se usa en el contexto de series de tiempo.

Christoph Bergmeir
fuente
6

¡Interesante pregunta!

El enfoque que describe es ciertamente muy utilizado por personas que utilizan métodos ML estándar que requieren vectores de características de longitud fija de atributos, para analizar datos de series de tiempo.

En la publicación a la que se vincula, Hyndman señala que existen correlaciones entre los vectores de datos reformados (muestras). Esto podría ser problemático, ya que k-CV (u otros métodos de evaluación que dividen los datos al azar en conjuntos de entrenamiento y prueba) supone que todas las muestras son independientes. Sin embargo, no creo que esta preocupación sea relevante para el caso de los métodos de ML estándar, que tratan los atributos por separado.

norte=3

UN:(y1,y2,y3;y4 4)si:(y2,y3,y4 4;y5 5)C:(y3,y4 4,y5 5;y6 6)

Claramente, A y B tienen términos como y2en común. Pero, para A, este es el valor de su segundo atributo, mientras que para B este es el valor de su primer atributo.

Tampón irlandés
fuente
1
Estoy de acuerdo con usted en que algunos algoritmos de ML pueden ser inmunes al problema de las muestras altamente correlacionadas porque tratan los atributos completamente por separado. Pero esos algoritmos tampoco son muy buenos para el trabajo en series temporales. Los algoritmos de ML que son prometedores para una serie temporal tienen que ser capaces de notar que el atributo n. ° 1 y el atributo n. ° 2 son realmente similares, de lo contrario serán malos en la predicción (la predicción debería ser más o menos similar cuando cambias el tiempo por 1) Esos algoritmos también sufrirían el problema mencionado por Hyndman.
max