Errores en el análisis de series de tiempo

46

Estoy empezando el autoaprendizaje en el análisis de series de tiempo. He notado que hay una serie de posibles dificultades que no son aplicables a las estadísticas generales. Entonces, basándose en ¿Cuáles son los pecados estadísticos comunes? , Me gustaría preguntar:

¿Cuáles son las dificultades comunes o los pecados estadísticos en el análisis de series de tiempo?

Esto está pensado como un wiki de la comunidad, un concepto por respuesta y, por favor, no se repiten los escollos estadísticos más generales que se enumeran (o deberían) en ¿Cuáles son los pecados estadísticos comunes?

time-series self-study nada101
fuente

18

Extrapolando una regresión lineal en una serie de tiempo, donde el tiempo es una de las variables independientes en la regresión. Una regresión lineal puede aproximarse a una serie temporal en una escala de tiempo corta, y puede ser útil en un análisis, pero extrapolar una línea recta es una tontería. (El tiempo es infinito y cada vez mayor).

EDITAR: En respuesta a la pregunta de nada101 sobre "tonto", mi respuesta puede ser incorrecta, pero me parece que la mayoría de los fenómenos del mundo real no aumentan o disminuyen continuamente para siempre. La mayoría de los procesos tienen factores limitantes: las personas dejan de crecer en altura a medida que envejecen, las existencias no siempre aumentan, las poblaciones no pueden ser negativas, no se puede llenar su casa con mil millones de cachorros, etc. Tiempo, a diferencia de la mayoría de las variables independientes que vienen en mente, tiene un soporte infinito, por lo que realmente puedes imaginar que tu modelo lineal predice el precio de las acciones de Apple dentro de 10 años porque seguramente existirán dentro de 10 años. (Mientras que no extrapolaría una regresión altura-peso para predecir el peso de los machos adultos de 20 metros de altura: no existen ni existirán).

Además, las series de tiempo a menudo tienen componentes cíclicos o pseudocíclicos, o componentes de caminata aleatoria. Como IrishStat menciona en su respuesta, debe tener en cuenta la estacionalidad (a veces estacionalidades en múltiples escalas de tiempo), cambios de nivel (que harán cosas extrañas a las regresiones lineales que no los explican), etc. Una regresión lineal que ignore los ciclos encaja a corto plazo, pero sea muy engañoso si lo extrapola.

Por supuesto, puede meterse en problemas cada vez que extrapola, series temporales o no. Pero me parece que con demasiada frecuencia vemos que alguien arroja una serie temporal (delitos, precios de acciones, etc.) a Excel, suelta un PRONÓSTICO o una LÍNEA y predice el futuro esencialmente a través de una línea recta, como si los precios de las acciones aumentaran continuamente (o disminuir continuamente, incluso ir negativo).

Wayne
fuente

¿Puedes explicar por qué es tonto?

naught101

1

+1 por los increíbles ejemplos. Estoy calculando exactamente cuántos cachorros puedo caber en mi casa en este momento: D

na101

3

Esta es una gran ilustración de su punto: xkcd.com/605

Zach

1

@naught Mark Twain hizo un gran trabajo al mostrar, en el lenguaje más simple posible, por qué "tonto" es apropiado para la extrapolación lineal de una serie de tiempo.

whuber

Y esto: stats.stackexchange.com/a/13904/9007 ... Un punto similar es la extrapolación de una tendencia polinómica (especialmente de alto grado), o cualquier otro modelo que no tenga relevancia física. Escribí una publicación de blog sobre por qué es una mala idea , cuando me estaba enseñando octava.

naught101

13

Prestando atención a la correlación entre dos series de tiempo no estacionarias. (No es inesperado que tengan un alto coeficiente de correlación: busque "correlación sin sentido" y "cointegración").

Por ejemplo, en google correlate, los perros y las perforaciones en las orejas tienen un coeficiente de correlación de 0.84.

Para un análisis más antiguo, ver la exploración del problema de Yule en 1926

Wayne
fuente

Por supuesto que no siempre. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309

naught101

@Wayne Muchas gracias por el artículo de Yule. He estado citando esto desde 1970 y nunca lo he leído. Es bien conocido en algunos círculos, aparentemente pequeños.

IrishStat

7

En el nivel superior, Kolmogorov identificó la independencia como una suposición clave en las estadísticas: sin la suposición, muchos resultados importantes en las estadísticas no son ciertos, ya sea que se apliquen a series de tiempo o tareas de análisis más generales.

Las muestras sucesivas o cercanas en la mayoría de las señales de tiempo discreto del mundo real no son independientes, por lo que se debe tener cuidado de descomponer un proceso en un modelo determinista y un componente de ruido estocástico. Aun así, el supuesto de incremento independiente en el cálculo estocástico clásico es problemático: recuerde el Nobel de economía de 1997 y la implosión de LTCM en 1998 que contaba a los galardonados entre sus principales (aunque para ser justos, el administrador del fondo Merrywhether probablemente sea más culpable que cuantitativo). métodos).

alancalvitti
fuente

El "análisis de series temporales" como campo de estudio. Básicamente me refiero a cualquier cosa que pueda hacer tropezar a alguien nuevo en el estudio de series de tiempo (de cualquier tipo y cualquier tipo de análisis). No estoy buscando respuestas completas. Verifique la pregunta a la que hice referencia en mi pregunta para tener una idea de lo que estoy tratando de hacer aquí.

naught101

Me refería a qué tipo de análisis

alancalvitti

Lo sé. Creo que te estás perdiendo el punto de la pregunta. Siéntase libre de comentar los escollos comunes en cualquier tipo de análisis, de cualquier tipo de problema de series de tiempo con el que tenga experiencia. Simplemente manténgalo en problemas específicos de las series de tiempo.

naught101

Hola @alancalvitti, ese ejemplo de economía suena interesante. ¿Conoces una buena descripción que podamos vincular desde aquí?

naught101

Edité esta respuesta para volver al punto principal presentado (para volver al estilo de un punto por respuesta). Eso significaba eliminar las cosas sobre el análisis espectral. Quizás algo podría decirse al respecto en una respuesta separada (aunque no parecía ser sobre trampas, específicamente, probablemente hay trampas relacionadas con el análisis espectral que podríamos notar aquí). La discusión anterior ahora no tiene sentido, pero entiendes eso, supongo: /

naught101

2

Estar demasiado seguro de los resultados de su modelo porque utiliza una técnica / modelo (como OLS) que no tiene en cuenta la autocorrelación de una serie temporal.

No tengo un buen gráfico, pero el libro "Series de tiempo introductorias con R" (2009, Cowpertwait, et al) ofrece una explicación intuitiva razonable: si hay una autocorrelación positiva, los valores superiores o inferiores a la media tenderán a persistir y estar agrupados en el tiempo. Esto lleva a una estimación menos eficiente de la media, lo que significa que necesita más datos para estimar la media con la misma precisión que si hubiera una autocorrelación cero. Efectivamente tiene menos datos de lo que cree que tiene.

El proceso OLS (y, por lo tanto, usted) supone que no hay autocorrelación, por lo que también asume que la estimación de la media es más precisa (para la cantidad de datos que tiene) de lo que realmente es. Por lo tanto, terminas teniendo más confianza en tus resultados de lo que deberías estar.

(Esto puede funcionar de otra manera para la autocorrelación negativa: su estimación de la media es en realidad más eficiente de lo que sería de otra manera. No tengo nada que pruebe esto, pero sugeriría que la correlación positiva es más común en la mayoría del tiempo del mundo real serie que correlación negativa.)

Wayne
fuente

Un ejemplo aquí sería genial, no entiendo completamente la respuesta tal como está

nada101

Gracias por la edición @Wayne, pero me refería a un ejemplo del mundo real, preferiblemente con algo de visualización. Obviamente, otros pueden agregar eso también: es un wiki comunitario.

naught101

1

@ naught101: Ah. Dos de mis tres sugerencias que he hecho aquí se basan en lo que he aprendido, pero no necesariamente lo suficientemente bien como para dar un buen ejemplo. Intentaré buscar uno en la web.

Wayne

Solo son datos simulados, pero mi respuesta a otra pregunta tiene un código R con un modelo que se ajusta a OLS y luego tiene más en cuenta la autocorrelación, con valores p dramáticamente más altos. stats.stackexchange.com/questions/27254/…

Peter Ellis

2

El impacto de los cambios de nivel, los pulsos estacionales y las tendencias de la hora local ... además de los pulsos únicos. Los cambios en los parámetros a lo largo del tiempo son importantes para investigar / modelar. Deben investigarse los posibles cambios en la variación de los errores a lo largo del tiempo. Cómo determinar cómo se ve afectado Y por los valores contemporáneos y rezagados de X. Cómo identificar si los valores futuros de X pueden afectar los valores actuales de Y. Cómo averiguar los días particulares del mes tiene un impacto. ¿Cómo modelar problemas de frecuencia mixta donde los datos por hora se ven afectados por los valores diarios?

Nada me pidió que proporcionara información / ejemplos más específicos sobre cambios de nivel y pulsos. Con ese fin, ahora incluyo un poco más de discusión. Una serie que muestra un ACF que sugiere no estacionariedad está en efecto entregando un "síntoma". Un remedio sugerido es "diferenciar" los datos. Un remedio que se pasa por alto es "desvirtuar" los datos. Si una serie tiene un cambio de nivel "mayor" en la media (es decir, la intercepción), el acf de esta serie completa puede malinterpretarse fácilmente para sugerir diferencias. Mostraré un ejemplo de una serie que muestra un cambio de nivel. Si hubiera acentuado (ampliado) la diferencia entre los dos significa que el acf de la serie total sugeriría (¡incorrectamente!) La necesidad de diferenciar. Los pulsos no tratados / los cambios de nivel / los pulsos estacionales / las tendencias de tiempo local inflan la variación de los errores que ofuscan la importancia de la estructura del modelo y son la causa de estimaciones de parámetros defectuosas y pronósticos pobres. Ahora a un ejemplo. Th ingrese la descripción de la imagen aquí Esta es una lista de los 27 valores mensuales. Este es el gráfico . ¡Hay cuatro pulsos y 1 cambio de nivel Y NO TENDENCIA! y . Los residuos de este modelo sugieren un proceso de ruido blanco . Algunos (¡la mayoría!) Paquetes de pronósticos comerciales e incluso gratuitos ofrecen las siguientes tonterías como resultado de asumir un modelo de tendencia con factores estacionales aditivos ingrese la descripción de la imagen aquí . Para concluir y parafrasear a Mark Twain. "¡No tiene sentido y no tiene sentido, pero la mayor falta de sentido de todos ellos es un sinsentido estadístico!" en comparación con un más razonable . Espero que esto ayude !

IrishStat
fuente

1

De Verdad? ¿Estas son todas trampas y pecados ? (¡Vuelva a leer la parte enfatizada de la pregunta!) ¿Quizás quiere decir lo contrario de lo que escribió?

whuber

La intención de mis comentarios fue señalar las trampas de no entretener o considerar algunas de estas posibles estructuras del mundo real. Hay que evitar suposiciones que no están razonablemente validadas; de lo contrario, se podrían obtener resultados muy cuestionables.

IrishStat

3

Supuse que esa era la intención, pero en su forma actual su respuesta es fácil de entender mal. Por ejemplo, ¿es pecado evaluar el "impacto" de los "pulsos de una sola vez" o es un pecado no hacerlo? ¡Esto es lo suficientemente vago como para que se haga un buen caso para cualquier interpretación! (Sí, es un pecado, porque los pulsos de una sola vez pueden ser valores atípicos a los que no desea otorgar una influencia indebida y dar cuenta de que todos ellos pueden parametrizar en exceso el modelo; no, deben incluirse porque sus efectos pueden persistir mucho tiempo e ignorando que podría sesgar las estimaciones de otros parámetros.)

whuber

@whuber Si los efectos de un pulso de una sola vez persisten, esto podría modelarse como una secuencia de pulsos de una sola vez en puntos sucesivos. Esto no es tan elegante como podría ser, pero no obstante es efectivo. Como dijo correctamente, no desea que los valores errantes distorsionen las estimaciones de los parámetros de la estructura repetitiva, por lo tanto, es un "pecado" no tratar la estructura determinista no especificada, como pulsos, cambios de nivel, pulsos estacionales y / o tendencias de tiempo local.

IrishStat

Creo que esta sería una respuesta realmente interesante si la primera oración (cambios de nivel y pulsos) se ampliara enormemente (con algunos ejemplos), y el resto se descartara. La heterocedasticidad sería una buena respuesta por separado.

naught101

1

Definición de tendencia como un crecimiento lineal a lo largo del tiempo.

Aunque algunas tendencias son de alguna manera lineales (consulte el precio de las acciones de Apple), y aunque el gráfico de series temporales se parece a un gráfico de líneas donde puede encontrar regresión lineal, la mayoría de las tendencias no son lineales.

Hay cambios de paso como cambios cuando algo sucedió en un punto específico en el tiempo que cambió el comportamiento de la medida ( "El puente se derrumbó y desde entonces no hay autos que lo pasen ").

Otra tendencia popular es "Buzz" : crecimiento exponencial y una fuerte disminución similar después ( "Nuestra campaña de marketing fue un gran éxito, pero el efecto se desvaneció después de un par de semanas" ).

Conocer el modelo correcto (regresión logística, etc.) de la tendencia en la serie temporal es crucial en la capacidad de detectarlo en los datos de la serie temporal.

Chico
fuente

1

Además de algunos puntos excelentes que ya se han mencionado, agregaría:

Si no se detectan ciclos largos o estacionalidad, al examinar solo los datos durante un período de tiempo "insuficientemente largo"
No evaluar el error de pronóstico para períodos pasados ( backtesting )
No detectar y tratar los cambios de régimen

Estos problemas no están relacionados con los métodos estadísticos involucrados, sino con el diseño del estudio, es decir, qué datos incluir y cómo evaluar los resultados.

La parte difícil con el punto 1. es asegurarse de que hayamos observado un período suficiente de datos para sacar conclusiones sobre el futuro. Durante mi primera conferencia sobre series de tiempo, el profesor dibujó una larga curva sinusal en el tablero y señaló que los ciclos largos parecen tendencias lineales cuando se observan en una ventana corta (bastante simple, pero la lección me quedó grabada).

El punto 2. es especialmente relevante si los errores de su modelo tienen algunas implicaciones prácticas. Entre otros campos, se está utilizando ampliamente en Finanzas, pero diría que evaluar los errores de pronóstico en períodos pasados tiene mucho sentido para todos los modelos de series temporales donde los datos lo permiten.

El punto 3. toca nuevamente el tema de qué porción de datos pasados es representativa del futuro. Este es un tema complejo con una gran cantidad de literatura: nombraré a mi favorito personal: Zucchini y MacDonald como ejemplo.

significado
fuente

1

Evite los alias en series de tiempo muestreadas. Si está analizando datos de series de tiempo que se muestrean a intervalos regulares, entonces la frecuencia de muestreo debe ser el doble de la frecuencia del componente de frecuencia más alta en los datos que está muestreando. Esta es la teoría de muestreo de Nyquist, y se aplica al audio digital, pero también a cualquier serie de tiempo muestreada a intervalos regulares. La forma de evitar el aliasing es filtrar todas las frecuencias por encima de la frecuencia de nyquist, que es la mitad de la frecuencia de muestreo. Por ejemplo, para audio digital, una frecuencia de muestreo de 48 kHz requerirá un filtro de paso bajo con un límite inferior a 24 kHz.
El efecto de alias puede verse cuando las ruedas parecen girar hacia atrás, debido a un efecto estrobiscópico donde la velocidad de la luz estroboscópica está cerca de la velocidad de revolución de la rueda. La tasa lenta observada es un alias de la tasa real de revolución.

marty
fuente

Errores en el análisis de series de tiempo

Respuestas: