Soy un graduado de negocios y economía que actualmente estudia para una maestría en ingeniería de datos. Mientras estudiaba la regresión lineal (LR) y luego el análisis de series de tiempo (TS), surgió una pregunta en mi mente. ¿Por qué crear un método completamente nuevo, es decir, series de tiempo (ARIMA), en lugar de usar regresión lineal múltiple y agregarle variables rezagadas (con el orden de los rezagos determinado usando ACF y PACF)? Entonces la maestra me sugirió que escribiera un pequeño ensayo sobre el tema. No venía a buscar ayuda con las manos vacías, así que hice mi investigación sobre el tema.
Ya sabía que cuando se usa LR, si se violan los supuestos de Gauss-Markov, la regresión de OLS es incorrecta, y que esto sucede cuando se usan datos de series de tiempo (autocorrelación, etc.). (Otra pregunta sobre esto, una suposición de GM es que las variables independientes deberían distribuirse normalmente, ¿o solo la variable dependiente condicional a las independientes?)
También sé que cuando uso una regresión de retraso distribuida, que es lo que creo que estoy proponiendo aquí, y uso de OLS para estimar parámetros, puede surgir (obviamente) la multicolinealidad entre variables, por lo que las estimaciones serían incorrectas.
En una publicación similar sobre TS y LR aquí, @IrishStat dijo:
... un modelo de regresión es un caso particular de un Modelo de Función de Transferencia también conocido como modelo de regresión dinámica o modelo XARMAX. El punto destacado es la identificación del modelo en series de tiempo, es decir, las diferencias apropiadas, los retrasos apropiados de las X, la estructura ARIMA apropiada, la identificación apropiada de la estructura determinista no especificada, como Pulsos, Cambios de nivel, Tendencias de tiempo local, Pulsos estacionales e incorporación de los cambios en los parámetros o la varianza del error debe considerarse.
(También leí su artículo en Autobox sobre Box Jenkins vs LR.) Pero esto todavía no resuelve mi pregunta (o al menos no aclara las diferentes mecánicas de RL y TS para mí).
Es obvio que incluso con variables rezagadas surgen problemas OLS y no es eficiente ni correcto, pero cuando se usa la máxima probabilidad, ¿persisten estos problemas? He leído que ARIMA se estima a través de la máxima probabilidad, por lo que si el LR con rezagos se estima con ML en lugar de OLS, ¿produce los coeficientes "correctos" (supongamos que también incluimos términos de error rezagados, como un MA de orden q).
En resumen, ¿es el problema OLS? ¿Se solucionó el problema aplicando ML?
Respuestas:
Un punto inmediato es que una regresión lineal solo funciona con variables observadas, mientras que ARIMA incorpora variables no observadas en la parte de promedio móvil; así, ARIMA es más flexible, o más general, en cierto modo. El modelo AR puede verse como un modelo de regresión lineal y sus coeficientes pueden estimarse usando OLS; donde consiste en rezagos de la variable dependiente que se observan . Mientras tanto, los modelos MA o ARMA no se ajustan al marco OLS ya que algunas de las variables, a saber, los términos de error rezagados, no se observan y, por lo tanto, el estimador OLS no es factible.Xβ^OLS=(X′X)−1X′y X
La suposición de normalidad a veces se invoca para errores del modelo, no para las variables independientes. Sin embargo, no se requiere normalidad ni para la consistencia y eficiencia del estimador MCO ni para el teorema de Gauss-Markov. El artículo de Wikipedia sobre el teorema de Gauss-Markov establece explícitamente que "los errores no necesitan ser normales".
Un alto grado de multicolinealidad significa una varianza inflada del estimador MCO. Sin embargo, el estimador OLS sigue siendo AZUL siempre que la multicolinealidad no sea perfecta. Por lo tanto, su declaración no se ve bien.
Se puede estimar un modelo AR utilizando OLS y ML; ambos métodos dan estimadores consistentes. Los modelos MA y ARMA no pueden ser estimados por OLS, por lo que ML es la opción principal; De nuevo, es consistente. La otra propiedad interesante es la eficiencia, y aquí no estoy completamente seguro (pero claramente la información debería estar disponible en algún lugar ya que la pregunta es bastante estándar). Intentaría comentar sobre la "corrección", pero no estoy seguro de qué quieres decir con eso.
fuente
Esa es una gran pregunta. La verdadera diferencia entre los modelos ARIMA y la regresión lineal múltiple radica en su estructura de error. Puede manipular las variables independientes en un modelo de regresión lineal múltiple para que se ajusten a los datos de su serie temporal, que es lo que dice @IrishStat. Sin embargo, después de eso, debe incorporar los errores ARIMA en su modelo de regresión múltiple para obtener el coeficiente correcto y los resultados de la prueba. Un gran libro gratuito sobre esto es: https://www.otexts.org/fpp/9/1 . He vinculado la sección que analiza la combinación de ARIMA y los modelos de regresión múltiple.
fuente
Buena pregunta, en realidad he construido tanto en mi trabajo diario como Data Scientist. Los modelos de series de tiempo son fáciles de construir (el paquete de pronóstico en R le permite construir uno en menos en 5 segundos), el mismo o más preciso que los modelos de regresión, etc. En general, siempre se deben construir series de tiempo, luego regresión. También hay implicaciones filosóficas de las series de tiempo, si puedes predecir sin saber nada, ¿qué significa eso?
Mi opinión sobre Darlington. 1) "La regresión es mucho más flexible y potente, y produce mejores modelos. Este punto se desarrolla en numerosos puntos a lo largo del trabajo".
No, todo lo contrario. Los modelos de regresión hacen muchas más suposiciones que los modelos de series temporales. Cuantos menos supuestos, más probable es la capacidad de resistir el terremoto (cambio de régimen). Además, los modelos de series temporales responden más rápido a cambios repentinos.
2) "La regresión es mucho más fácil de dominar que ARIMA, al menos para aquellos que ya están familiarizados con el uso de la regresión en otras áreas". Este es un razonamiento circular.
3) "La regresión usa un algoritmo computacional" cerrado "que esencialmente garantiza resultados si es posible, mientras que ARIMA y muchos otros métodos usan algoritmos iterativos que a menudo no alcanzan una solución. A menudo he visto que el método ARIMA" cuelga "en los datos que no dieron problema al método de regresión".
La regresión te da una respuesta, pero ¿es la respuesta correcta? Si construyo modelos de regresión lineal y aprendizaje automático y todos llegan a la misma conclusión, ¿qué significa?
En resumen, sí, la regresión y las series de tiempo pueden responder a la misma pregunta y, técnicamente, las series de tiempo son técnicamente una regresión (aunque auto-regresión). Los modelos de series temporales son menos complejos y, por lo tanto, más robustos que los modelos de regresión. Si piensa en la especialización, los modelos TS se especializan en pronósticos mientras que la regresión se especializa en la comprensión. Se reduce a si desea explicar o predecir.
fuente
Al pensar que la diferencia más profunda entre las funciones de transferencia y la regresión lineal multipe (en su uso habitual) radica en sus objetivos, las regresiones múltiples están orientadas para encontrar los principales determinantes observables causales de la variable dependiente, mientras que las funciones de transferencia solo quieren pronosticar el efecto en un dependiente variable de la variación de una variable exógena específica ... En resumen, la regresión múltiple está orientada a la explicación exhaustiva y la función de transferencia para pronosticar efectos muy específicos ...
fuente