Extrapolando una regresión lineal en una serie de tiempo, donde el tiempo es una de las variables independientes en la regresión. Una regresión lineal puede aproximarse a una serie temporal en una escala de tiempo corta, y puede ser útil en un análisis, pero extrapolar una línea recta es una tontería. (El tiempo es infinito y cada vez mayor).
EDITAR: En respuesta a la pregunta de nada101 sobre "tonto", mi respuesta puede ser incorrecta, pero me parece que la mayoría de los fenómenos del mundo real no aumentan o disminuyen continuamente para siempre. La mayoría de los procesos tienen factores limitantes: las personas dejan de crecer en altura a medida que envejecen, las existencias no siempre aumentan, las poblaciones no pueden ser negativas, no se puede llenar su casa con mil millones de cachorros, etc. Tiempo, a diferencia de la mayoría de las variables independientes que vienen en mente, tiene un soporte infinito, por lo que realmente puedes imaginar que tu modelo lineal predice el precio de las acciones de Apple dentro de 10 años porque seguramente existirán dentro de 10 años. (Mientras que no extrapolaría una regresión altura-peso para predecir el peso de los machos adultos de 20 metros de altura: no existen ni existirán).
Además, las series de tiempo a menudo tienen componentes cíclicos o pseudocíclicos, o componentes de caminata aleatoria. Como IrishStat menciona en su respuesta, debe tener en cuenta la estacionalidad (a veces estacionalidades en múltiples escalas de tiempo), cambios de nivel (que harán cosas extrañas a las regresiones lineales que no los explican), etc. Una regresión lineal que ignore los ciclos encaja a corto plazo, pero sea muy engañoso si lo extrapola.
Por supuesto, puede meterse en problemas cada vez que extrapola, series temporales o no. Pero me parece que con demasiada frecuencia vemos que alguien arroja una serie temporal (delitos, precios de acciones, etc.) a Excel, suelta un PRONÓSTICO o una LÍNEA y predice el futuro esencialmente a través de una línea recta, como si los precios de las acciones aumentaran continuamente (o disminuir continuamente, incluso ir negativo).
Prestando atención a la correlación entre dos series de tiempo no estacionarias. (No es inesperado que tengan un alto coeficiente de correlación: busque "correlación sin sentido" y "cointegración").
Por ejemplo, en google correlate, los perros y las perforaciones en las orejas tienen un coeficiente de correlación de 0.84.
Para un análisis más antiguo, ver la exploración del problema de Yule en 1926
fuente
x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309
En el nivel superior, Kolmogorov identificó la independencia como una suposición clave en las estadísticas: sin la suposición, muchos resultados importantes en las estadísticas no son ciertos, ya sea que se apliquen a series de tiempo o tareas de análisis más generales.
Las muestras sucesivas o cercanas en la mayoría de las señales de tiempo discreto del mundo real no son independientes, por lo que se debe tener cuidado de descomponer un proceso en un modelo determinista y un componente de ruido estocástico. Aun así, el supuesto de incremento independiente en el cálculo estocástico clásico es problemático: recuerde el Nobel de economía de 1997 y la implosión de LTCM en 1998 que contaba a los galardonados entre sus principales (aunque para ser justos, el administrador del fondo Merrywhether probablemente sea más culpable que cuantitativo). métodos).
fuente
Estar demasiado seguro de los resultados de su modelo porque utiliza una técnica / modelo (como OLS) que no tiene en cuenta la autocorrelación de una serie temporal.
No tengo un buen gráfico, pero el libro "Series de tiempo introductorias con R" (2009, Cowpertwait, et al) ofrece una explicación intuitiva razonable: si hay una autocorrelación positiva, los valores superiores o inferiores a la media tenderán a persistir y estar agrupados en el tiempo. Esto lleva a una estimación menos eficiente de la media, lo que significa que necesita más datos para estimar la media con la misma precisión que si hubiera una autocorrelación cero. Efectivamente tiene menos datos de lo que cree que tiene.
El proceso OLS (y, por lo tanto, usted) supone que no hay autocorrelación, por lo que también asume que la estimación de la media es más precisa (para la cantidad de datos que tiene) de lo que realmente es. Por lo tanto, terminas teniendo más confianza en tus resultados de lo que deberías estar.
(Esto puede funcionar de otra manera para la autocorrelación negativa: su estimación de la media es en realidad más eficiente de lo que sería de otra manera. No tengo nada que pruebe esto, pero sugeriría que la correlación positiva es más común en la mayoría del tiempo del mundo real serie que correlación negativa.)
fuente
El impacto de los cambios de nivel, los pulsos estacionales y las tendencias de la hora local ... además de los pulsos únicos. Los cambios en los parámetros a lo largo del tiempo son importantes para investigar / modelar. Deben investigarse los posibles cambios en la variación de los errores a lo largo del tiempo. Cómo determinar cómo se ve afectado Y por los valores contemporáneos y rezagados de X. Cómo identificar si los valores futuros de X pueden afectar los valores actuales de Y. Cómo averiguar los días particulares del mes tiene un impacto. ¿Cómo modelar problemas de frecuencia mixta donde los datos por hora se ven afectados por los valores diarios?
Nada me pidió que proporcionara información / ejemplos más específicos sobre cambios de nivel y pulsos. Con ese fin, ahora incluyo un poco más de discusión. Una serie que muestra un ACF que sugiere no estacionariedad está en efecto entregando un "síntoma". Un remedio sugerido es "diferenciar" los datos. Un remedio que se pasa por alto es "desvirtuar" los datos. Si una serie tiene un cambio de nivel "mayor" en la media (es decir, la intercepción), el acf de esta serie completa puede malinterpretarse fácilmente para sugerir diferencias. Mostraré un ejemplo de una serie que muestra un cambio de nivel. Si hubiera acentuado (ampliado) la diferencia entre los dos significa que el acf de la serie total sugeriría (¡incorrectamente!) La necesidad de diferenciar. Los pulsos no tratados / los cambios de nivel / los pulsos estacionales / las tendencias de tiempo local inflan la variación de los errores que ofuscan la importancia de la estructura del modelo y son la causa de estimaciones de parámetros defectuosas y pronósticos pobres. Ahora a un ejemplo. ThEsta es una lista de los 27 valores mensuales. Este es el gráfico . ¡Hay cuatro pulsos y 1 cambio de nivel Y NO TENDENCIA! y . Los residuos de este modelo sugieren un proceso de ruido blanco . Algunos (¡la mayoría!) Paquetes de pronósticos comerciales e incluso gratuitos ofrecen las siguientes tonterías como resultado de asumir un modelo de tendencia con factores estacionales aditivos . Para concluir y parafrasear a Mark Twain. "¡No tiene sentido y no tiene sentido, pero la mayor falta de sentido de todos ellos es un sinsentido estadístico!" en comparación con un más razonable . Espero que esto ayude !
fuente
Definición de tendencia como un crecimiento lineal a lo largo del tiempo.
Aunque algunas tendencias son de alguna manera lineales (consulte el precio de las acciones de Apple), y aunque el gráfico de series temporales se parece a un gráfico de líneas donde puede encontrar regresión lineal, la mayoría de las tendencias no son lineales.
Hay cambios de paso como cambios cuando algo sucedió en un punto específico en el tiempo que cambió el comportamiento de la medida ( "El puente se derrumbó y desde entonces no hay autos que lo pasen ").
Otra tendencia popular es "Buzz" : crecimiento exponencial y una fuerte disminución similar después ( "Nuestra campaña de marketing fue un gran éxito, pero el efecto se desvaneció después de un par de semanas" ).
Conocer el modelo correcto (regresión logística, etc.) de la tendencia en la serie temporal es crucial en la capacidad de detectarlo en los datos de la serie temporal.
fuente
Además de algunos puntos excelentes que ya se han mencionado, agregaría:
Estos problemas no están relacionados con los métodos estadísticos involucrados, sino con el diseño del estudio, es decir, qué datos incluir y cómo evaluar los resultados.
La parte difícil con el punto 1. es asegurarse de que hayamos observado un período suficiente de datos para sacar conclusiones sobre el futuro. Durante mi primera conferencia sobre series de tiempo, el profesor dibujó una larga curva sinusal en el tablero y señaló que los ciclos largos parecen tendencias lineales cuando se observan en una ventana corta (bastante simple, pero la lección me quedó grabada).
El punto 2. es especialmente relevante si los errores de su modelo tienen algunas implicaciones prácticas. Entre otros campos, se está utilizando ampliamente en Finanzas, pero diría que evaluar los errores de pronóstico en períodos pasados tiene mucho sentido para todos los modelos de series temporales donde los datos lo permiten.
El punto 3. toca nuevamente el tema de qué porción de datos pasados es representativa del futuro. Este es un tema complejo con una gran cantidad de literatura: nombraré a mi favorito personal: Zucchini y MacDonald como ejemplo.
fuente
Evite los alias en series de tiempo muestreadas. Si está analizando datos de series de tiempo que se muestrean a intervalos regulares, entonces la frecuencia de muestreo debe ser el doble de la frecuencia del componente de frecuencia más alta en los datos que está muestreando. Esta es la teoría de muestreo de Nyquist, y se aplica al audio digital, pero también a cualquier serie de tiempo muestreada a intervalos regulares. La forma de evitar el aliasing es filtrar todas las frecuencias por encima de la frecuencia de nyquist, que es la mitad de la frecuencia de muestreo. Por ejemplo, para audio digital, una frecuencia de muestreo de 48 kHz requerirá un filtro de paso bajo con un límite inferior a 24 kHz.
El efecto de alias puede verse cuando las ruedas parecen girar hacia atrás, debido a un efecto estrobiscópico donde la velocidad de la luz estroboscópica está cerca de la velocidad de revolución de la rueda. La tasa lenta observada es un alias de la tasa real de revolución.
fuente