¿Cuál es / es la diferencia "mecánica" entre la regresión lineal múltiple con rezagos y series de tiempo?

14

Soy un graduado de negocios y economía que actualmente estudia para una maestría en ingeniería de datos. Mientras estudiaba la regresión lineal (LR) y luego el análisis de series de tiempo (TS), surgió una pregunta en mi mente. ¿Por qué crear un método completamente nuevo, es decir, series de tiempo (ARIMA), en lugar de usar regresión lineal múltiple y agregarle variables rezagadas (con el orden de los rezagos determinado usando ACF y PACF)? Entonces la maestra me sugirió que escribiera un pequeño ensayo sobre el tema. No venía a buscar ayuda con las manos vacías, así que hice mi investigación sobre el tema.

Ya sabía que cuando se usa LR, si se violan los supuestos de Gauss-Markov, la regresión de OLS es incorrecta, y que esto sucede cuando se usan datos de series de tiempo (autocorrelación, etc.). (Otra pregunta sobre esto, una suposición de GM es que las variables independientes deberían distribuirse normalmente, ¿o solo la variable dependiente condicional a las independientes?)

También sé que cuando uso una regresión de retraso distribuida, que es lo que creo que estoy proponiendo aquí, y uso de OLS para estimar parámetros, puede surgir (obviamente) la multicolinealidad entre variables, por lo que las estimaciones serían incorrectas.

En una publicación similar sobre TS y LR aquí, @IrishStat dijo:

... un modelo de regresión es un caso particular de un Modelo de Función de Transferencia también conocido como modelo de regresión dinámica o modelo XARMAX. El punto destacado es la identificación del modelo en series de tiempo, es decir, las diferencias apropiadas, los retrasos apropiados de las X, la estructura ARIMA apropiada, la identificación apropiada de la estructura determinista no especificada, como Pulsos, Cambios de nivel, Tendencias de tiempo local, Pulsos estacionales e incorporación de los cambios en los parámetros o la varianza del error debe considerarse.

(También leí su artículo en Autobox sobre Box Jenkins vs LR.) Pero esto todavía no resuelve mi pregunta (o al menos no aclara las diferentes mecánicas de RL y TS para mí).

Es obvio que incluso con variables rezagadas surgen problemas OLS y no es eficiente ni correcto, pero cuando se usa la máxima probabilidad, ¿persisten estos problemas? He leído que ARIMA se estima a través de la máxima probabilidad, por lo que si el LR con rezagos se estima con ML en lugar de OLS, ¿produce los coeficientes "correctos" (supongamos que también incluimos términos de error rezagados, como un MA de orden q).

En resumen, ¿es el problema OLS? ¿Se solucionó el problema aplicando ML?

Miguel M.
fuente
44
Una extraña semejanza allí con John Maynard Keynes.
Nick Cox
Hola @ NickCox, sí, él es mi economista favorito, creo que fue un hombre increíble y extremadamente talentoso en muchos sentidos ... ¿alguna ayuda en mi pregunta? Lo que estoy tratando de entender es por qué el modelo rezagado no funciona con la estimación OLS, y si se estimaría correctamente con la estimación de máxima probabilidad Entiendo que el mejor modelo es una función de transferencia, y lo estoy estudiando en este momento. Pero la pregunta teórica aún permanece allí sobre OLS. Si no hubiera autocorrelación presente porque los retrasos lo eliminan (suponga también que multicoll. No está presente), ¿funcionaría? o hay todavía y subyacente
Miguel M.
@NickCox ... ¿efecto / violación de los supuestos gaussianos con los que OLS no puede trabajar y que no pueden adaptarse a este método? Como se puede ver que estoy un poco perdido con esto, si es demasiado tiempo para responder, por favor, si usted puede proporcionar alguna conferencia que podría iluminar a lo agradecería demasiado
Miguel M.
1
En términos de mecánica, permítanme sugerir que el modelo ARMA para la variable X sugerida (adecuadamente diferenciada) del usuario refleja la no estacionariedad. Si ese filtro se aplica a AMBAS series adecuadamente diferenciadas, el par de series resultante a menudo se puede estudiar a través de procedimientos de correlación cruzada produciendo una estructura de retraso sugerida (comprensión). Esta estructura de retraso se puede aplicar a la serie original adecuadamente diferenciada para dar una sugerencia sobre la serie no especificada / de fondo (el proceso de error tentativo). Este proceso de error se puede estudiar para obtener el ARMA apropiado.
IrishStat
@IrishStat, así que permíteme reformular lo que acabas de decir. Tengamos la variable dependiente Yt y la variable independiente Xt, diferenciamos tanto Yt como Xt hasta que tengamos estacionariedad en ambos, y luego podemos aplicar la función de correlación cruzada para descubrir la estructura de retraso. Luego regresamos Yt a Xt y estudiamos el término de error. Si encontramos la estructura ARMA en el término de error, la aplicamos en el modelo hasta que tengamos ruido blanco, ¿correcto? Pero, mi pregunta sigue siendo, ¿ese último modelo se ajustó a través de OLS? Si no, ¿por qué no, y qué método utilizamos?
Miguel M.

Respuestas:

9

¿Por qué crear un método completamente nuevo, es decir, series de tiempo (ARIMA), en lugar de usar regresión lineal múltiple y agregarle variables rezagadas (con el orden de los rezagos determinado usando ACF y PACF)?

Un punto inmediato es que una regresión lineal solo funciona con variables observadas, mientras que ARIMA incorpora variables no observadas en la parte de promedio móvil; así, ARIMA es más flexible, o más general, en cierto modo. El modelo AR puede verse como un modelo de regresión lineal y sus coeficientes pueden estimarse usando OLS; donde consiste en rezagos de la variable dependiente que se observan . Mientras tanto, los modelos MA o ARMA no se ajustan al marco OLS ya que algunas de las variables, a saber, los términos de error rezagados, no se observan y, por lo tanto, el estimador OLS no es factible.Xβ^OLS=(XX)1XyX

Una suposición de GM es que las variables independientes deberían distribuirse normalmente o solo la variable dependiente condicional a las independientes?

La suposición de normalidad a veces se invoca para errores del modelo, no para las variables independientes. Sin embargo, no se requiere normalidad ni para la consistencia y eficiencia del estimador MCO ni para el teorema de Gauss-Markov. El artículo de Wikipedia sobre el teorema de Gauss-Markov establece explícitamente que "los errores no necesitan ser normales".

La multicolinealidad entre variables puede (obviamente) surgir, por lo que las estimaciones serían incorrectas.

Un alto grado de multicolinealidad significa una varianza inflada del estimador MCO. Sin embargo, el estimador OLS sigue siendo AZUL siempre que la multicolinealidad no sea perfecta. Por lo tanto, su declaración no se ve bien.

Es obvio que incluso con variables rezagadas surgen problemas OLS y no es eficiente ni correcto, pero cuando se usa la máxima probabilidad, ¿persisten estos problemas?

Se puede estimar un modelo AR utilizando OLS y ML; ambos métodos dan estimadores consistentes. Los modelos MA y ARMA no pueden ser estimados por OLS, por lo que ML es la opción principal; De nuevo, es consistente. La otra propiedad interesante es la eficiencia, y aquí no estoy completamente seguro (pero claramente la información debería estar disponible en algún lugar ya que la pregunta es bastante estándar). Intentaría comentar sobre la "corrección", pero no estoy seguro de qué quieres decir con eso.

Richard Hardy
fuente
Hola Sr. Hardy, muchas gracias por la respuesta. Con respecto a los valores observados versus no observados, solo para resumir. En ARIMA y series de tiempo (más específicamente XARIMAX), empleamos un enfoque "dinámico", porque usamos el error de predicción, y en la regresión lineal no los usamos, pero de todos modos podríamos usarlos. No entiendo entonces el problema aquí. ¿O como dice @IrishStat, la única diferencia es el camino hacia la identificación y las estrategias de revisión del modelo?
Miguel M.
¿Y qué hay de la estimación, es OLS (nuevamente) correcto al incluir errores rezagados en el modelo? Con respecto a la multicolinealidad, quise decir que los coeficientes estimados podrían no ser correctos, ya que su estimación tiene una gran varianza. Me refiero al método correcto, si usar OLS proporciona estimaciones imparciales y eficientes en comparación con ML cuando se usan los modelos rezagados propuestos.
Miguel M.
@MiguelM, estoy viajando ahora, intentaré volver más tarde.
Richard Hardy
1
Con respecto a "en la regresión lineal, no los usamos, pero podríamos usarlos de todos modos": no observamos estas variables y, por lo tanto, no pueden usarse en el marco de regresión lineal debido a la mecánica allí (como señalé en la respuesta, el estimador no es factible); sin embargo, pueden usarse en el marco ARIMA. Con respecto a "¿es correcto OLS (nuevamente) cuando se incluyen errores rezagados en el modelo?", Sí, eso debería ser cierto. Con respecto a la "corrección", si el modelo se especifica correctamente y tanto OLS como ML son factibles, ambos deberían funcionar bien. Bajo especificación errónea, las cosas tienden a salir mal.
Richard Hardy
1
Debo ser malo para explicar, y me resulta difícil encontrar una explicación alternativa en este caso ... Suponga que tiene que ejecutar una regresión , y no observa . Entonces no hay forma de que puedas ejecutar la regresión. Este es el punto principal. OLS no permite que falten variables. Sin embargo, ciertas estructuras con variables faltantes se pueden recuperar utilizando ML, y un ejemplo de dicha estructura es el modelo MA. (La regresión es factible no solo para OLS sino también para la estimación de ML cuando no se observa .)x y = β 0 + β 1 x + ε xy=β0+β1x+εxy=β0+β1x+εx
Richard Hardy
5

Esa es una gran pregunta. La verdadera diferencia entre los modelos ARIMA y la regresión lineal múltiple radica en su estructura de error. Puede manipular las variables independientes en un modelo de regresión lineal múltiple para que se ajusten a los datos de su serie temporal, que es lo que dice @IrishStat. Sin embargo, después de eso, debe incorporar los errores ARIMA en su modelo de regresión múltiple para obtener el coeficiente correcto y los resultados de la prueba. Un gran libro gratuito sobre esto es: https://www.otexts.org/fpp/9/1 . He vinculado la sección que analiza la combinación de ARIMA y los modelos de regresión múltiple.

LindsayL
fuente
1

Buena pregunta, en realidad he construido tanto en mi trabajo diario como Data Scientist. Los modelos de series de tiempo son fáciles de construir (el paquete de pronóstico en R le permite construir uno en menos en 5 segundos), el mismo o más preciso que los modelos de regresión, etc. En general, siempre se deben construir series de tiempo, luego regresión. También hay implicaciones filosóficas de las series de tiempo, si puedes predecir sin saber nada, ¿qué significa eso?

Mi opinión sobre Darlington. 1) "La regresión es mucho más flexible y potente, y produce mejores modelos. Este punto se desarrolla en numerosos puntos a lo largo del trabajo".

No, todo lo contrario. Los modelos de regresión hacen muchas más suposiciones que los modelos de series temporales. Cuantos menos supuestos, más probable es la capacidad de resistir el terremoto (cambio de régimen). Además, los modelos de series temporales responden más rápido a cambios repentinos.

2) "La regresión es mucho más fácil de dominar que ARIMA, al menos para aquellos que ya están familiarizados con el uso de la regresión en otras áreas". Este es un razonamiento circular.

3) "La regresión usa un algoritmo computacional" cerrado "que esencialmente garantiza resultados si es posible, mientras que ARIMA y muchos otros métodos usan algoritmos iterativos que a menudo no alcanzan una solución. A menudo he visto que el método ARIMA" cuelga "en los datos que no dieron problema al método de regresión".

La regresión te da una respuesta, pero ¿es la respuesta correcta? Si construyo modelos de regresión lineal y aprendizaje automático y todos llegan a la misma conclusión, ¿qué significa?

En resumen, sí, la regresión y las series de tiempo pueden responder a la misma pregunta y, técnicamente, las series de tiempo son técnicamente una regresión (aunque auto-regresión). Los modelos de series temporales son menos complejos y, por lo tanto, más robustos que los modelos de regresión. Si piensa en la especialización, los modelos TS se especializan en pronósticos mientras que la regresión se especializa en la comprensión. Se reduce a si desea explicar o predecir.

Modelo oculto de Markov
fuente
1
"Los modelos de series temporales son menos complejos y, por lo tanto, más robustos que los modelos de regresión" ... Lo que quiso decir fue "los modelos ARIMA son menos complejos y, por lo tanto, más robustos que los modelos de regresión". La incorporación de ARIMA y la regresión se conoce como Modelos de función de transferencia ... que luego es la mejor elección, combinando tanto la comprensión (regresión) como los factores de fondo desconocidos / no especificados (ARIMA).
IrishStat
2
@IrishStat Hola Sr. Reilly, he estado leyendo sus respuestas a varias publicaciones aquí en stackexchange, y también he leído muchos de los documentos en Autobox, así como los enlaces para el curso de series de tiempo de PSU, pero todavía no entienda por qué (o si) una regresión lineal (usando OLS), con el uso de variables rezagadas y términos de error rezagados si es necesario no funcionaría
Miguel M.
@IrishStat ¿es el método OLS que no funciona?
Miguel M.
1
IrishStat para ampliar su punto, el objetivo sería la causalidad Granger. Por ejemplo, incluso si un coeficiente es estadísticamente significativo, puede no ser necesariamente significativo para mejorar la precisión del pronóstico. En mi investigación, descubrí que los modelos de regresión (lineal, lazo, etc.) tienden a decir que las cosas son importantes de lo que realmente son, mientras que el bosque aleatorio tiende a degradarlas e identificar las palancas verdaderas. Además, el bosque aleatorio tiene la misma precisión de muestra que los modelos lineales. El único inconveniente es que no se puede saber cuáles son los coeficientes en realidad.
Modelo oculto de Markov el
2
@MiguelM. Ciertamente podría funcionar porque una función de transferencia es un modelo de retraso distribuido polinómico tal vez que incluya cambios de nivel detectados empíricamente / tendencias de tiempo / pulsos estacionales mientras se ajusta por pulsos (anomalías únicas) Creo que la diferencia principal es el camino hacia la identificación y las estrategias de revisión del modelo
IrishStat
0

Al pensar que la diferencia más profunda entre las funciones de transferencia y la regresión lineal multipe (en su uso habitual) radica en sus objetivos, las regresiones múltiples están orientadas para encontrar los principales determinantes observables causales de la variable dependiente, mientras que las funciones de transferencia solo quieren pronosticar el efecto en un dependiente variable de la variación de una variable exógena específica ... En resumen, la regresión múltiple está orientada a la explicación exhaustiva y la función de transferencia para pronosticar efectos muy específicos ...

Rodolfo
fuente
No creo que esto sea bastante exacto, porque ambos métodos producen coeficientes que de hecho pueden interpretarse. Además, las funciones de transferencia SÍ dependen en gran medida del análisis causal, y en realidad son mejores para distinguir que la regresión lineal múltiple. Además, esta publicación solicita las diferencias mecánicas / metodológicas entre estos dos métodos
Miguel M.