Estoy tratando de aprender a usar las redes neuronales. Estaba leyendo este tutorial .
Después de ajustar una red neuronal en una serie temporal utilizando el valor en para predecir el valor en el autor obtiene el siguiente gráfico, donde la línea azul es la serie temporal, el verde es la predicción en los datos del tren, el rojo es el predicción sobre datos de prueba (usó una división de tren de prueba)
y lo llama "Podemos ver que el modelo hizo un trabajo bastante pobre al ajustar tanto la formación como los conjuntos de datos de prueba. Básicamente predijo el mismo valor de entrada que la salida".
Luego, el autor decide usar , y para predecir el valor en . Al hacerlo, obtiene
y dice "Mirando el gráfico, podemos ver más estructura en las predicciones".
Mi pregunta
¿Por qué es el primer "pobre"? me parece casi perfecto, ¡predice cada cambio a la perfección!
Y de manera similar, ¿por qué es mejor el segundo? ¿Dónde está la "estructura"? A mí me parece mucho más pobre que el primero.
En general, ¿cuándo es buena una predicción sobre series de tiempo y cuándo es mala?
fuente
Respuestas:
Es una especie de ilusión óptica: el ojo mira el gráfico y ve que los gráficos rojo y azul están justo al lado de cada uno. El problema es que están uno al lado del otro horizontalmente , pero lo que importa es la verticaldistancia. El ojo ve más fácilmente la distancia entre las curvas en el espacio bidimensional del gráfico cartesiano, pero lo que importa es la distancia unidimensional dentro de un valor t particular. Por ejemplo, supongamos que tenemos los puntos A1 = (10,100), A2 = (10.1, 90), A3 = (9.8,85), P1 = (10.1,100.1) y P2 = (9.8, 88). El ojo naturalmente comparará P1 con A1, porque ese es el punto más cercano, mientras que P2 se comparará con A2. Como P1 está más cerca de A1 que P2 de A3, P1 se verá como una mejor predicción. Pero cuando compara P1 con A1, solo está observando qué tan bien A1 puede repetir lo que vio antes; con respecto a A1, P1 no es una predicción. La comparación adecuada es entre P1 v. A2 y P2 v. A3, y en esta comparación P2 es mejor que P1. Hubiera sido más claro si, además de trazar y_actual e y_pred contra t, hubiera habido gráficos de (y_pred-y_actual) contra t.
fuente
Es un llamado pronóstico "desplazado". Si observa más de cerca el gráfico 1, verá que el poder de predicción es solo para copiar casi exactamente el último valor visto. Eso significa que el modelo no aprendió nada mejor, y trata la serie temporal como una caminata aleatoria. Supongo que el problema puede estar en el hecho de que usa los datos sin procesar que alimenta a la red neuronal. Estos datos no son estacionarios, lo que causa todos los problemas.
fuente