¿Qué problemas debo tener en cuenta al combinar varias series de tiempo?

Digamos que tengo una serie de series de tiempo, por ejemplo, varios registros de temperatura de varias estaciones en una región. Quiero obtener un único registro de temperatura para toda la región con el que pueda describir aspectos del clima regional. El enfoque intuitivo podría ser simplemente tomar el promedio de todas las estaciones en cada paso de tiempo, pero mi sentido de araña estadística (con el que definitivamente todavía no estoy en contacto) me dice que esto podría no ser tan fácil. En particular, imagino que promediar toda la región eliminará algunos de los extremos de temperatura interesantes, y podría tener problemas de dependencia entre estaciones cercanas.

¿Qué otros problemas podría enfrentar si intentara una estrategia como esta, y hay formas de superarlos, o métodos más razonables para combinar este tipo de datos?

Nota: Las respuestas pueden ser más generales que el ejemplo espacial que he proporcionado.

time-series climate nada101
fuente

El problema podría estar en su conflicto entre "un único registro de temperatura para toda la región" y cualquier interés que tenga en la variación dentro de la región. Una solución podría implicar alguna forma de conciliar estos dos problemas, por ejemplo, dividir la varianza en componentes intra e interregionales.

Peter Ellis

@ PeterEllis, sí, estaba pensando vagamente en eso. A los fines de la pregunta, supongamos que no me importa la variabilidad espacial intrarregional.

naught101

en ese caso, creo que lo principal de lo que debe preocuparse es la dependencia entre estaciones cercanas. Encuentre una manera de reducir las observaciones que efectivamente duplican la estación de al lado, y debería estar bien.

Peter Ellis el

@PeterEllis: está bien, pero puede que no haya una forma física razonable de hacerlo. La cercanía de las estaciones no significa necesariamente que sean más dependientes, es decir. dos estaciones cercanas en los lados opuestos de una cadena montañosa podrían ser menos similares que dos estaciones distantes en una amplia llanura. ¿Hay una manera confiable de definir la dependencia estadísticamente? Covarianza, supongo ... Todavía es probable que haya menos picos en la serie resultante (supongo que eso refleja la situación física, sin embargo, los cambios temporales en una región amplia probablemente sean más lentos y constantes que en un solo lugar).

naught101

@naught, con respecto al aspecto espacial de su pregunta, ¿cómo se definen sus regiones? En su comentario, menciona que dos estaciones cercanas en lados opuestos de una montaña podrían ser diferentes de dos estaciones distantes en una amplia llanura. ¿Ha considerado redefinir las regiones de la estación basándose en la proximidad y similitud para su análisis? No tendrían que coincidir necesariamente con los límites regionales convencionales. En cambio, podrían convertirse en una superposición analítica que podría trazarse sobre un mapa tradicional.

DAV

Respuestas:

Primero, me gustaría decir que agregaría un comentario, pero aún no puedo hacerlo (representante), pero me gusta la pregunta y quería participar, así que aquí hay una "respuesta". Además, veo que esto es viejo, pero es interesante.

Primero, ¿sería posible utilizar una técnica de reducción de dimensiones, como PCA, para condensar las series de tiempo? Si el primer valor propio es grande, tal vez eso signifique que su uso del vector propio representaría la mayor parte de la dinámica.

En segundo lugar, y de manera más general, ¿cuál es su uso deseado de la serie temporal? Sin saber mucho más, supongo que las temperaturas pueden variar bastante. Por ejemplo, si algunos registros de temperatura están cerca de ciudades, podría obtener un efecto de tipo "isla de calor". O tal vez un pequeño cambio en la distancia lateral produce un gran cambio en la distancia vertical: una ubicación podría estar al nivel del mar y justo en el océano, y otra no "demasiado lejos", sino a un kilómetro de elevación. ¡Esos definitivamente tendrían temperaturas diferentes!

Estos son solo algunos pensamientos. Tal vez alguien más podría saltar y dar una mejor respuesta.

rbatt
fuente

Buen punto. Para ser sincero, no recuerdo cuál fue el contexto en torno a esta pregunta, y tengo la sensación de que mis comentarios fueron engañosos. Estaba específicamente interesado en no perder la variabilidad común a todas las estaciones, pero fuera de fase. Piense en las estaciones de todo un continente y en un frente frío que cruza. Básicamente, un promedio espacial simple podría eliminar el frente frío, lo que no es realmente bueno, ya que cada estación lo exhibiría fuertemente, pero en momentos diferentes. Probablemente ejecutar algún tipo de PCA en cada estación y luego promediar los resultados de alguna manera podría ser una forma de evitarlo.

naught101

O wow, está bien, así que si estás tratando de caracterizar la tendencia en las series de tiempo sobre la región, tal vez deberías hacer que las series de tiempo sean estacionarias, y cada una con una media de 0. También puedes intentar eliminar el ciclo diario de cada uno (o simplemente tome promedios diarios). Luego quedaría con cambios de temperatura de baja frecuencia, cada uno centrado alrededor de una media de 0. Una vez que tenga eso, tal vez podría condensar la serie de tiempo centrada + estacionaria utilizando alguna técnica de reducción de dimensiones, como PCA. Me alegra que haya hablado un poco sobre el contexto de la pregunta, b / c que realmente ayuda. ¡Buen material!

Rbatt