¿Por qué esta predicción de series temporales es "bastante pobre"?

15

Estoy tratando de aprender a usar las redes neuronales. Estaba leyendo este tutorial .

Después de ajustar una red neuronal en una serie temporal utilizando el valor en para predecir el valor en el autor obtiene el siguiente gráfico, donde la línea azul es la serie temporal, el verde es la predicción en los datos del tren, el rojo es el predicción sobre datos de prueba (usó una división de tren de prueba)tt+1p1

y lo llama "Podemos ver que el modelo hizo un trabajo bastante pobre al ajustar tanto la formación como los conjuntos de datos de prueba. Básicamente predijo el mismo valor de entrada que la salida".

Luego, el autor decide usar , y para predecir el valor en . Al hacerlo, obtienett-1t-2t+1

p2

y dice "Mirando el gráfico, podemos ver más estructura en las predicciones".

Mi pregunta

¿Por qué es el primer "pobre"? me parece casi perfecto, ¡predice cada cambio a la perfección!

Y de manera similar, ¿por qué es mejor el segundo? ¿Dónde está la "estructura"? A mí me parece mucho más pobre que el primero.

En general, ¿cuándo es buena una predicción sobre series de tiempo y cuándo es mala?

Euler_Salter
fuente
3
Como comentario general, la mayoría de los métodos de LD son para análisis de sección transversal y necesitan ajustes para aplicarse en series de tiempo. La razón principal es la autocorrelación en los datos, mientras que en ML a menudo se supone que los datos son independientes en la mayoría de los métodos populares
Aksakal
11
Hace un gran trabajo al predecir cada cambio ... ¡justo después de que suceda!
hobbs
@hobbs, no estoy tratando de usar t, t-1, t-2, etc. para predecir t + 1. Me preguntaba si sabes cuántos términos en el pasado es mejor usar. Si usamos demasiados, ¿estamos sobreajustados?
Euler_Salter
Hubiera sido más esclarecedor trazar los residuos.
reo katoa

Respuestas:

23

Es una especie de ilusión óptica: el ojo mira el gráfico y ve que los gráficos rojo y azul están justo al lado de cada uno. El problema es que están uno al lado del otro horizontalmente , pero lo que importa es la verticaldistancia. El ojo ve más fácilmente la distancia entre las curvas en el espacio bidimensional del gráfico cartesiano, pero lo que importa es la distancia unidimensional dentro de un valor t particular. Por ejemplo, supongamos que tenemos los puntos A1 = (10,100), A2 = (10.1, 90), A3 = (9.8,85), P1 = (10.1,100.1) y P2 = (9.8, 88). El ojo naturalmente comparará P1 con A1, porque ese es el punto más cercano, mientras que P2 se comparará con A2. Como P1 está más cerca de A1 que P2 de A3, P1 se verá como una mejor predicción. Pero cuando compara P1 con A1, solo está observando qué tan bien A1 puede repetir lo que vio antes; con respecto a A1, P1 no es una predicción. La comparación adecuada es entre P1 v. A2 y P2 v. A3, y en esta comparación P2 es mejor que P1. Hubiera sido más claro si, además de trazar y_actual e y_pred contra t, hubiera habido gráficos de (y_pred-y_actual) contra t.

Acumulacion
fuente
2
Esta es la mejor respuesta, ya que la otra ni siquiera menciona por qué un pronóstico "atractivo" es realmente pobre, ¡mientras que usted hace un gran trabajo!
Richard Hardy
17

¿Por qué es el primer "pobre"? me parece casi perfecto, ¡predice cada cambio a la perfección!

Es un llamado pronóstico "desplazado". Si observa más de cerca el gráfico 1, verá que el poder de predicción es solo para copiar casi exactamente el último valor visto. Eso significa que el modelo no aprendió nada mejor, y trata la serie temporal como una caminata aleatoria. Supongo que el problema puede estar en el hecho de que usa los datos sin procesar que alimenta a la red neuronal. Estos datos no son estacionarios, lo que causa todos los problemas.

Alexey Burnakov
fuente
8
Al pronosticar esto se llama pronóstico "ingenuo", es decir, usar el último observado como pronóstico
Aksakal,
¡Gracias! @ Aksakal, ¿sabe cuántos valores anteriores se deben utilizar para la predicción?
Euler_Salter
Centrarse en la estacionariedad. Un par de retrasos estacionarios deberían ser bastante buenos para esta serie de tiempo. Mejor que 100 rezagos no estacionarios.
Alexey Burnakov
en series de tiempo hay una manera de adivinar bien la estructura de retraso a través de ACF y PACF, busque en este foro, hubo muchas publicaciones sobre cómo se hace
Aksakal
@AlexeyBurnakov, entonces, ¿significa que debería transformarlo para que sea estacionario?
Euler_Salter