Entiendo que una serie temporal estacionaria es aquella cuya media y varianza es constante en el tiempo. ¿Alguien puede explicar por qué tenemos que asegurarnos de que nuestro conjunto de datos es estacionario antes de poder ejecutar diferentes modelos ARIMA o ARM en él? ¿Esto también se aplica a los modelos de regresión normales donde la autocorrelación y / o el tiempo no es un factor?
92
Respuestas:
La estacionariedad es un tipo de estructura de dependencia.
Supongamos que tenemos un dato . La suposición más básica es que son independientes, es decir, tenemos una muestra. La independencia es una buena propiedad, ya que al usarla podemos obtener muchos resultados útiles. El problema es que a veces (o con frecuencia, según la vista) esta propiedad no se mantiene.X iX1,...,Xn Xi
Ahora la independencia es una propiedad única, dos variables aleatorias pueden ser independientes solo de una manera, pero pueden ser dependientes de varias maneras. Entonces, la estacionariedad es una forma de modelar la estructura de dependencia. Resulta que muchos buenos resultados que se cumplen para variables aleatorias independientes (ley de números grandes, teorema del límite central, por nombrar algunos) se mantienen para variables aleatorias estacionarias (deberíamos decir estrictamente secuencias). Y, por supuesto, resulta que muchos datos pueden considerarse estacionarios, por lo que el concepto de estacionariedad es muy importante en el modelado de datos no independientes.
Cuando hemos determinado que tenemos estacionariedad, naturalmente queremos modelarlo. Aquí es donde entran los modelos ARMA. Resulta que cualquier dato estacionario puede aproximarse con el modelo ARMA estacionario, gracias al teorema de descomposición de Wold . Es por eso que los modelos ARMA son muy populares y es por eso que debemos asegurarnos de que la serie sea estacionaria para usar estos modelos.
Ahora, de nuevo, la misma historia se mantiene como con independencia y dependencia. La estacionariedad se define de manera única, es decir, los datos son estacionarios o no, por lo que solo hay una forma de que los datos sean estacionarios, pero hay muchas maneras de que no sean estacionarios. Una vez más, resulta que muchos datos se vuelven estacionarios después de cierta transformación. El modelo ARIMA es un modelo para no estacionariedad. Se supone que los datos se vuelven estacionarios después de la diferenciación.
En el contexto de regresión, la estacionariedad es importante ya que los mismos resultados que se aplican para datos independientes se mantienen si los datos son estacionarios.
fuente
¿Qué cantidades nos interesan típicamente cuando realizamos análisis estadísticos en una serie temporal? Queremos saber
¿Cómo calculamos estas cosas? Usar una media en muchos períodos de tiempo.
La media en muchos períodos de tiempo solo es informativa si el valor esperado es el mismo en esos períodos de tiempo. Si estos parámetros de población pueden variar, ¿qué estamos realmente estimando al tomar un promedio en el tiempo?
La estacionalidad (débil) requiere que estas cantidades de población sean las mismas a lo largo del tiempo, lo que hace que el promedio de la muestra sea una forma razonable de estimarlas.
Además de esto, los procesos estacionarios evitan el problema de la regresión espuria .
fuente
Una idea subyacente en el aprendizaje estadístico es que puedes aprender repitiendo un experimento. Por ejemplo, podemos seguir volteando una chincheta para saber la probabilidad de que una chincheta caiga sobre su cabeza.
En el contexto de series de tiempo, observamos una sola ejecución de un proceso estocástico en lugar de ejecuciones repetidas del proceso estocástico. Observamos 1 experimento largo en lugar de múltiples experimentos independientes.
Necesitamos estacionariedad y ergodicidad, de modo que observar una larga ejecución de un proceso estocástico es similar a observar muchas ejecuciones independientes de un proceso estocástico.
Algunas definiciones (imprecisas)
Deje que sea un espacio muestral. Un proceso estocástico es una función del tiempo y el resultado .Ω {Yt} t∈{1,2,3,…} ω∈Ω
Una cuestión fundamental en series de tiempo
En Estadísticas 101, se nos enseña sobre una serie de variables independientes e idénticamente distribuidas , , , etc. Observamos experimentos múltiples e idénticos donde un es aleatorio elegido y esto nos permite aprender acerca variable aleatoria . Según la Ley de Números Grandes , tenemos convergiendo casi seguramente a .X1 X2 X3 i=1,…,n ωi∈Ω X 1n∑ni=1Xi E[X]
Una diferencia fundamental en la configuración de series de tiempo es que estamos observando múltiples observaciones a lo largo del tiempo lugar de múltiples sorteos de .t Ω
En el caso general, puede no converger en nada.1T∑Tt=1Yt
Para que múltiples observaciones a lo largo del tiempo realicen una tarea similar a las múltiples tomas del espacio muestral , necesitamos estacionariedad y ergodicidad .
Si existe una media incondicional y se cumplen las condiciones para el teorema ergódico, la serie temporal, la media muestral convergerán a la media incondicional .E[Y] 1T∑Tt=1Yt E[Y]
Ejemplo 1: falla de estacionariedad
Sea el proceso degenerado . Podemos ver que no es estacionario (la distribución conjunta no es invariable en el tiempo).{Yt} Yt=t {Yt}
Deje que sea la media de la muestra de series de tiempo, y es obvio que no converge a nada como : . La media de no existe y no converge a nada como .St=1t∑ti=1Yi St t→∞ S1=1,S2=32,S3=2,…,St=t+12 Yt St t→∞
Ejemplo: falla de ergodicidad
Deje que sea el resultado de un solo lanzamiento de moneda. Deje para todo , es decir, o .X Yt=X t {Yt}=(0,0,0,0,0,0,0,…) {Yt}=(1,1,1,1,1,1,1,…
Aunque , la muestra de la serie significa no dará eres la media de .E[Yt]=12 St=1t∑ti=1Yi Yt
fuente
Para agregar una respuesta de alto nivel a algunas de las otras respuestas que son buenas pero más detalladas, la estacionariedad es importante porque, en su ausencia, un modelo que describa los datos variará en precisión en diferentes puntos de tiempo. Como tal, se requiere la estacionariedad para las estadísticas de muestra como medias, variaciones y correlaciones para describir con precisión los datos en todos los puntos de tiempo de interés.
Mirando las gráficas de series de tiempo a continuación, puede (con suerte) ver cómo la media y la varianza de cualquier segmento de tiempo dado harían un buen trabajo representando toda la serie de tiempo estacionaria pero un trabajo relativamente pobre que representa toda la serie de tiempo no estacionaria. Por ejemplo, la media de las series de tiempo no estacionarias es mucho más baja de y su varianza es mucho más alta en este rango que en el rango de .600<t<800 200<t<400
fuente
En primer lugar, ARIMA (p, 1, q) procesos son no estacionarios. Estas se denominan series integradas, por ejemplo, es un proceso ARIMA (0,1,0) o I (1), también caminata aleatoria o raíz unitaria. Entonces, no, no los necesitas a todos estacionarios.xt=xt−1+et
Sin embargo, a menudo buscamos estacionariedad. ¿Por qué?
Considere el problema de pronóstico. ¿Cómo pronosticas? Si mañana todo es diferente, entonces es imposible pronosticar, porque todo será diferente. Así que la clave para la predicción es encontrar algo que va a ser lo mismo mañana, y extender que el día de mañana. Ese algo puede ser cualquier cosa. Te daré un par de ejemplos.
En el modelo I (1) anterior, a menudo suponemos (o esperamos) que la distribución del error es la misma hoy y mañana: . Entonces, en este caso estamos diciendo que mañana la distribución seguirá siendo normal, y que su media y la varianza seguirán siendo las mismas 0 y . Esto no hizo que la serie fuera estacionaria todavía, pero encontramos la parte invariante en el proceso. A continuación, si observa la primera diferencia: : este gato es estacionario. Sin embargo, comprenda que el objetivo no era realmente encontrar la serie estacionariaet∼N(0,σ2) σ2 Δxt≡xt−xt−1=et Δxt , pero para encontrar algo invariable, que era la distribución de errores. Simplemente sucede que en la serie estacionaria, por definición, habrá partes invariables, como la media incondicional y la varianza.
Otro ejemplo, digamos que las series verdaderas son: . Digamos, todo lo que sabemos sobre los errores es que su media es cero: . Ahora, podemos pronosticar de nuevo! Todo lo que necesitamos es estimar la tasa de crecimiento , eso es lo que era invariante y la media de los errores. Cada vez que encuentre algo invariable, puede pronosticar. E [ e t ] = 0 αxt=αt+et E[et]=0 α
Para pronosticar necesitamos absolutamente encontrar el componente constante (invariante en el tiempo) en la serie, de lo contrario es imposible pronosticar por definición. La estacionariedad es solo un caso particular de la invariancia.
fuente
Dado que ARIMA está retrocediendo sobre sí mismo en su mayor parte, utiliza un tipo de regresión múltiple autoinducida que se vería innecesariamente influenciada por una fuerte tendencia o estacionalidad. Esta técnica de regresión múltiple se basa en valores de series de tiempo anteriores, especialmente aquellos dentro de los últimos períodos, y nos permite extraer una "interrelación" muy interesante entre múltiples valores pasados que funcionan para explicar un valor futuro.
fuente
La serie temporal se trata de analizar la forma en que los valores de una serie dependen de valores anteriores. Como SRKX sugirió, se puede diferenciar o reducir la tendencia o disminuir la importancia de una serie no estacionaria, ¡pero no innecesariamente!) Para crear una serie estacionaria. El análisis ARMA requiere estacionariedad. es estrictamente estacionario si la distribución de es idéntica a la de para cada y( X t + 1 , … , X t + k ) ( X 1 , … , X k ) t kX (Xt+1,…,Xt+k) (X1,…,Xk) t k . Desde Wiki: un proceso estacionario (o un proceso estacionario estricto (ly) o un proceso estacionario fuerte (ly)) es un proceso estocástico cuya distribución de probabilidad conjunta no cambia cuando se desplaza en el tiempo o el espacio. En consecuencia, parámetros como la media y la varianza, si existen, tampoco cambian con el tiempo o la posición. Además, como Cardinal ha señalado correctamente a continuación, la función de autocorrelación debe ser invariable con el tiempo (lo que significa que la función de covarianza es constante en el tiempo) se convierte en parámetros del modelo ARMA que son invariantes / constantes para todos los intervalos de tiempo.
La idea de estacionariedad del modelo ARMA está estrechamente vinculada a la idea de la invertibilidad.
Considere un modelo de la forma . Este modelo es explosivo ya que el polinomio tiene raíces dentro del círculo unitario y, por lo tanto, viola un requisito. Un modelo que tiene raíces dentro del círculo de la unidad significa que los "datos más antiguos" son más importantes que los "datos más nuevos", lo que por supuesto no tiene sentido.( 1 - 1.1 B )y(t)=1.1y(t−1) (1−1.1B)
fuente
ARMA y ARIMA se construyen asumiendo que la serie es estacionaria. Si la serie no es así, la predicción será incorrecta.
Las estadísticas de muestra (media, varianza, covarianza) son útiles como descriptores del comportamiento futuro solo si la serie es estacionaria. Por ejemplo, si la serie aumenta constantemente con el tiempo, la media y la varianza de la muestra crecerán con el tamaño de la muestra y siempre subestimarán la media y la varianza en los períodos futuros. Es importante tener cuidado al intentar extrapolar modelos de regresión ajustados a datos no estacionarios.
fuente
En mi opinión, el proceso estocástico es el proceso que se rige por tres propiedades estadísticas que deben ser invariables en el tiempo. Son la varianza media y la función de auto correlación. Aunque las dos primeras no dicen nada sobre la evolución del proceso en el tiempo, entonces la tercera propiedad, que es la función de autocorrelación, debe considerarse que le dice a uno cómo decae la dependencia a medida que transcurre el tiempo (retraso).
fuente
Para resolver cualquier cosa, necesitamos modelar matemáticamente las ecuaciones usando estática.
Durante el proceso de conversión, obtendremos una tendencia y estacionalidad.
fuente