¿Cuándo debo dejar de buscar una modelo?

Estoy buscando un modelo entre los precios de las acciones de energía y el clima. Tengo el precio del MWatt comprado entre los países de Europa y muchos valores sobre el clima (archivos Grib). Cada hora en un período de 5 años (2011-2015).

Precio / dia

Esto es por día durante un año. Tengo esto por horas en 5 años.

Ejemplo de clima

Diagrama de dispersión 3D, en kelvin, durante una hora. Tengo 1000 valores por datos por hora y 200 datos, como klevin, viento, geopential, etc.

Estoy tratando de pronosticar el precio promedio por hora del Mwatt.

Mis datos sobre el clima son muy densos, más de 10000 valores / hora y, por lo tanto, con una alta correlación. Es un problema de datos cortos y grandes.

He probado los métodos Lasso, Ridge y SVR con el precio medio del MWatt como resultado y los datos de mi clima como ingresos. Tomé el 70% como datos de entrenamiento y el 30% como prueba. Si los datos de mi prueba no son pronósticos (en algún lugar dentro de mis datos de entrenamiento) tengo una buena predicción (R² = 0.89). Pero quiero hacer pronósticos sobre mis datos.

Entonces, si los datos de la prueba están cronológicamente después de mis datos de entrenamiento, no predicen nada (R² = 0.05). Creo que es normal porque es una serie de tiempo. Y hay mucha autocorrelación.

Pensé que tenía que usar el modelo de serie temporal como ARIMA. Calculé el orden del método (la serie es estacionaria) y lo probé. Pero no funciona. Quiero decir que el pronóstico tiene un r² de 0.05. Mi predicción en los datos de prueba no está en absoluto en mis datos de prueba. Probé el método ARIMAX con mi clima como regresor. Ponlo no agrega ninguna información.

ACF / PCF, datos de prueba / tren

Así que he hecho un corte estacional por día y por semana.

Día

Semana sobre la tendencia de la primera

Y puedo tener esto si puedo predecitar la tendencia de tendencia de mi precio de acciones:

El azul es mi predicción y el rojo el valor real.

Voy a hacer una regresión con una media variable del clima como ingreso y la tendencia de la tendencia del precio de las acciones como resultado. Pero por ahora, no he encontrado ninguna relación.

Pero si no hay interacción, ¿cómo puedo saber que no hay nada? tal vez es solo que no lo he encontrado.

time-series forecasting predictive-models modeling large-data el Josso
fuente

Su pregunta es demasiado amplia para responder. ¿Qué estás modelando? ¿Qué "no funciona"? Regresión y ARIMA son modelos totalmente diferentes, entonces, ¿qué estabas haciendo exactamente?

Tim

Estoy modelando la evolución del precio. Y obtuve un R² menos de 0.2 en mi pronóstico

el Josso

¿Y cuál es exactamente el problema aquí? ¿Podría explicar cuáles son sus datos, qué modelos ha probado, qué problemas tiene y lo más importante: cuál es su pregunta aquí? ¿Cómo se define la "evolución del precio"? Como dije, su pregunta es demasiado vaga y demasiado amplia, por lo que es un candidato para ser cerrado como sin respuesta.

Tim

¿Necesito agregar gráficos?

el Josso

Puede hacerlo si ayuda (en muchos casos lo hace) :)

Tim

Tal vez le interese un dominio científico formal llamado "mecánica computacional". En un artículo de James Crutchfield y David Feldman, presentan el programa de la mecánica computacional, por lo que yo entiendo, analizando los límites entre (1) incertidumbre determinista y el costo de la información de inferir relaciones deterministas, (2) estocástico incertidumbre y el costo de la información de inferir distribuciones de probabilidad, y (3) incertidumbre entrópica y las consecuencias de ser pobre en información.

Para responder a su pregunta directamente (aunque también de manera bastante amplia, ya que hizo una pregunta amplia), cómo sabemos cuándo hemos aprendido "suficiente" o "todo lo que podemos" de los datos es un dominio abierto de investigación. El primero dependerá necesariamente de las necesidades propias como investigador y actor en el mundo (por ejemplo, dado cuánto tiempo, cuánto poder de procesamiento, cuánta memoria, cuánta urgencia, etc.).

No estoy en este campo, ni siquiera profundizo en este artículo en particular, pero son algunos pensadores geniales. :)

Crutchfield, JP y Feldman, DP (2003). Regularidades no vistas, aleatoriedad observada: niveles de convergencia de entropía . Caos , 13 (1): 25–54.

Alexis
fuente

No estoy seguro de si esto 'respondió la pregunta de OP, pero me gusta esta perspectiva.

horaceT

No es realmente lo que estaba buscando, pero es un buen artículo.

el Josso

¿Cuándo debo dejar de buscar una modelo?

Precio / dia

Ejemplo de clima

ACF / PCF, datos de prueba / tren

Día

Semana sobre la tendencia de la primera

Respuestas: