Análisis exploratorio de errores de pronóstico espacio-temporales.

13

Los datos: he trabajado recientemente en el análisis de las propiedades estocásticas de un campo espacio-temporal de errores de pronóstico de producción de energía eólica. Formalmente, se puede decir que es un proceso indexados dos veces en el tiempo (con y ) y una vez en el espacio ( ) con siendo el número de tiempos de anticipación (es igual a algo alrededor , muestreados regularmente), es el número de "tiempos de pronóstico" (es decir, tiempos en los que se emite el pronóstico, alrededor de 30000 en mi caso, muestreados regularmente), y

{(ϵ_{t + h El | t}^{pag})}_{t = 1 ..., T; h = 1, ..., H, pag = {pag}_{1}, ..., {pag}_{norte}}

$\left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}$

t

$t$

h

$h$

p

$p$

H

$H$

24

$24$

T

$T$

n

$n$ siendo una cantidad de posiciones espaciales (no cuadriculadas, alrededor de 300 en mi caso). Dado que este es un proceso relacionado con el clima, también tengo muchas predicciones meteorológicas, análisis y mediciones meteorológicas que se pueden utilizar.

Pregunta: ¿Puede describirme el análisis exploratorio que realizaría en este tipo de datos para comprender la naturaleza de la estructura de interdependencia (que podría no ser lineal) del proceso con el fin de proponer un modelo fino de la misma.

forecasting data-mining stochastic-processes spatial spatio-temporal robin girard
fuente

Esta es una pregunta muy interesante. ¿Es posible jugar al menos con un subconjunto de datos anónimos? ¿Y cómo se generaron los pronósticos, qué tipo de modelo se utilizó?

mpiktas

1

@mpiktas gracias, puedes considerar que se ha generado con un modelo AR adecuado (uno para cada parque eólico), no cambiará mucho el problema. Lo sentimos, hay problemas de mecanismos de confidencialidad demasiado con estos datos, no pueden hacerle cualquier cosa, incluso anónima ...

Girard robin

6

Me parece que tiene suficientes datos para modelar la dependencia del espacio-tiempo y las influencias meteorológicas tanto del sesgo de los errores de pronóstico (es decir, la tendencia a sobreestimar / subestimar sistemáticamente [primer momento]) como su varianza [segundo momento].

Para explorar el sesgo, simplemente haría muchos diagramas de dispersión, mapas de calor o diagramas de hexbin. Para explorar la variabilidad, simplemente cuadraría los errores originales y luego volvería a hacer muchos diagramas de dispersión, mapas de calor o diagramas de hexbin. Por supuesto, esto no es del todo problemático si tiene muchos sesgos, pero aún puede ayudar a ver patrones de heterocedasticidad influenciada por covariables.

Rmboost $t$ $h$ , splines de productos tensoriales para efectos espacio-temporales o interacciones suaves de efectos meteorológicos, etc.) para los diferentes momentos y realizar la selección de términos al mismo tiempo para obtener un modelo parsimonioso e interpretable. La esperanza sería que los términos en este modelo sean suficientes para dar cuenta de la estructura de autocorrelación espacio-temporal de los errores de pronóstico, pero probablemente debería verificar los residuales de estos modelos para la autocorrelación (es decir, mire algunos variogramas y ACF).

fabians
fuente

+1 Gracias Fabians, tienes toda la razón, el problema no es que no tenga suficientes datos. Tenga en cuenta que mi pregunta es especialmente sobre la estructura de interdependencia. Los diagramas de dispersión, los mapas de calor y el diagrama de hexbin son buenas herramientas si se usan para el buen propósito. Creo que el modelo general de aditivos también puede ser muy poderoso, hay un maravilloso documento de Brillinger que proporciona buenos consejos sobre cómo usar GAM.

robin girard

5

Nosotros (un colega y yo) finalmente escribimos un artículo sobre eso. Para resumir las cosas, propusimos dos soluciones para cuantificar y dar un resumen estadístico de la propagación (espacial-temporal) de errores a lo largo de Dinamarca y los tiempos de anticipación.

En el primero calculamos la correlación entre todos los pares de parques eólicos y para todos los pares de tiempos de anticipación (esta es una función de 4 variables). Cuando se repara un par, mostramos que la función de correlación tiene un máximo local a lo largo de los tiempos de anticipación, ¡dijimos que esto es propagación! La escala temporal asociada a un par dado de parques eólicos viene dada por el retraso temporal para el cual se obtiene este máximo local. Al trazar, para todos los pares de parques eólicos, los máximos locales de correlación, el retraso temporal que permite obtener eso y el vector espacial que se une a los parques eólicos da el lado derecho de la Figura 1.

Figura 1

Esto se puede utilizar para calcular un vector de propagación global, es decir, algún tipo de promedio espacial de las velocidades de propagación entre pares. Parte de esto se muestra en el lado izquierdo de la Figura 1, y adivina qué propagación de errores es West East en Denamrk (ok, eso no fue una gran sorpresa :)). También analizamos esto condicionalmente a diferentes situaciones meteorológicas para mostrar la relación entre propagación y viento (velocidad, dirección).

$t$ $t$ $R^2$

Figura 2

En el segundo caso, observamos que la velocidad de propagación promedio temporal tiene una magnitud similar a la obtenida con el promedio espacial en el primer caso. Si desea ver este trabajo más en serio, el documento está aquí .

robin girard
fuente

+1 Gracias por compartir. (Lo siento, me perdí la pregunta cuando apareció originalmente). ¿Consideró trazar variogramas cruzados por tiempo de anticipación? Las más efectivas no serían las nubes de variograma direccional suavizadas tradicionales; en su lugar, use diagramas bidimensionales de las densidades de nubes de variogramas. Luego puede construir variogramas cruzados de aquellos para explorar las relaciones temporales. Los resultados de su propagación deberían aparecer automáticamente en dicho análisis.

whuber

@whuber Gracias por el comentario, no creo que haya perdido más de 2 o 3 preguntas en este sitio :). Su idea con el variograma parece estar conectada (no uso mucho el uso del variograma, a menudo creo que todo lo que se puede formular con el variograma tiene un equivalente práctico con las covarianzas ...), lo pensaré.

robin girard

Tiene razón en que en muchas aplicaciones las covarianzas son equivalentes a los variogramas. Sin embargo, la nube de variogramas proporciona un complemento visual y conceptual que parece no funcionar solo con funciones de covarianza: es un poco como mirar diagramas de dispersión en lugar de solo matrices de correlación: a veces puedes ver patrones que los números no revelan claramente .

whuber

Análisis exploratorio de errores de pronóstico espacio-temporales.

Respuestas: