¿Cuál es el punto del análisis de series de tiempo?
Existen muchos otros métodos estadísticos, como la regresión y el aprendizaje automático, que tienen casos de uso obvios: la regresión puede proporcionar información sobre la relación entre dos variables, mientras que el aprendizaje automático es excelente para la predicción.
Pero mientras tanto, no veo para qué sirve el análisis de series temporales. Claro, puedo ajustar un modelo ARIMA y usarlo para la predicción, pero ¿de qué sirve cuando los intervalos de confianza para esa predicción sean enormes? Hay una razón por la que nadie puede predecir el mercado de valores a pesar de ser la industria más basada en datos de la historia mundial.
Del mismo modo, ¿cómo lo uso para comprender mejor mi proceso? Claro, puedo trazar el ACF y decir "¡Ajá! ¡Hay cierta dependencia!", Pero ¿entonces qué? ¿Cuál es el punto de? Por supuesto que hay dependencia, por eso estás haciendo un análisis de series de tiempo para empezar. Ya sabías que había dependencia . ¿Pero para qué lo vas a usar?
fuente
Respuestas:
Un uso principal es el pronóstico . Llevo más de una década alimentando a mi familia pronosticando cuántas unidades de un producto específico venderá un supermercado mañana, para que pueda pedir suficiente stock, pero no demasiado. Hay dinero en esto.
Otros casos de uso de pronósticos se dan en publicaciones como International Journal of Forecasting o Foresight . (Divulgación completa: soy editor asociado de Foresight ).
Sí, a veces los intervalos de predicción son enormes. (Supongo que se refiere a IP, no a intervalos de confianza . Hay una diferencia ) . Esto simplemente significa que el proceso es difícil de pronosticar. Entonces necesitas mitigar. Al pronosticar las ventas de supermercados, esto significa que necesita una gran cantidad de existencias de seguridad. Al pronosticar el aumento del nivel del mar, esto significa que necesita construir diques más altos. Yo diría que un intervalo de predicción grande proporciona información útil.
Y para todos los casos de uso de pronósticos, el análisis de series temporales es útil, aunque el pronóstico es un tema más amplio. A menudo puede mejorar las previsiones teniendo en cuenta las dependencias de su serie temporal, por lo que debe comprenderlas a través del análisis, que es más específico que simplemente saber que existen dependencias.
Además, las personas están interesadas en series temporales incluso si no pronostican. A los econométricos les gusta detectar puntos de cambio en series cronológicas macroeconómicas. O evalúe el impacto de una intervención, como un cambio en las leyes tributarias, en el PIB u otra cosa. Es posible que desee leer su diario de econometría favorito para obtener más inspiración.
fuente
Objetivos en el Análisis TS de las diapositivas de la lección de M. Dettling
1) Análisis exploratorio: visualización de las propiedades de la serie.
2) Modelado: ajustando un modelo estocástico a los datos que representan y reflejan las propiedades más importantes de la serie
3) Predicción: predicción de observaciones futuras con medida de incertidumbre
4) Control de proceso: la salida de un proceso (físico) define una serie de tiempo
5) Regresión de series de tiempo: modelación de series de tiempo de respuesta utilizando 1 o más series de entrada Ajuste de este modelo bajo suposición de error iid:
Sobre el problema marcado stock:
Sobre correlación serial:
fuente
La forma más fácil de responder a su pregunta es comprender que aproximadamente los conjuntos de datos a menudo se clasifican en secciones transversales , series de tiempo y paneles . La regresión de sección transversal es una herramienta de referencia para los conjuntos de datos de sección transversal. Esto es lo que la mayoría de la gente sabe y se refiere con un término de regresión . La regresión de series de tiempo a veces se aplica a series de tiempo, pero el análisis de series de tiempo tiene una amplia gama de herramientas más allá de la regresión.
Si la muestra no fue aleatoria, entonces la regresión puede no funcionar en absoluto. Por ejemplo, elegiste solo chicas en primer grado para estimar el modelo, pero tienes que predecir la altura de un estudiante de 12º grado. Entonces, la regresión tiene sus propios problemas incluso en la configuración transversal.
El tercer tipo de conjunto de datos común es un panel, particularmente, el que contiene datos longitudinales. Aquí, puede obtener varias instantáneas de variables de peso y altura para varios estudiantes. Este conjunto de datos puede parecer oleadas de secciones transversales o un conjunto de series de tiempo.
Naturalmente, esto puede ser más complicado que los dos tipos anteriores. Aquí utilizamos la regresión de paneles y otras técnicas especiales desarrolladas para paneles.
En resumen, la razón por la cual la regresión de series temporales se considera una herramienta distinta en comparación con la regresión transversal es que las series temporales presentan desafíos únicos cuando se trata de supuestos de independencia de la técnica de regresión. Particularmente, debido al hecho de que, a diferencia del análisis transversal, el orden de las observaciones es importante, generalmente conduce a todo tipo de estructuras de correlación y dependencia, que a veces pueden invalidar la aplicación de técnicas de regresión. Tienes que lidiar con la dependencia, y eso es exactamente en lo que es bueno el análisis de series de tiempo.
Previsibilidad de los precios de los activos
Además, está repitiendo un error común sobre los mercados de valores y los precios de los activos en general, que no se pueden predecir. Esta afirmación es demasiado general para ser verdad. Es cierto que no puede predecir directamente el siguiente paso de AAPL de manera confiable. Sin embargo, es un problema muy limitado. Si amplía su red, descubrirá muchas oportunidades para ganar dinero utilizando todo tipo de pronósticos (y análisis de series temporales en particular). El arbitraje estadístico es uno de esos campos.
Ahora, la razón por la cual los precios de los activos son difíciles de predecir a corto plazo se debe al hecho de que un gran componente de los cambios de precios es información nueva. La información verdaderamente nueva que no se puede idear de manera realista del pasado es, por definición, imposible de predecir. Sin embargo, este es un modelo idealizado, y mucha gente argumentaría que existen anomalías que permiten la persistencia del estado. Esto significa que la parte del cambio de precio puede explicarse por el pasado. En tales casos, el análisis de series de tiempo es bastante apropiado porque trata con precisión la persistencia. Separa lo nuevo de lo viejo, lo nuevo es imposible de predecir, pero lo viejo se arrastra del pasado hacia el futuro. Si puede explicar incluso un poco, en finanzas significa que puedeser capaz de ganar dinero Siempre y cuando el precio de la estrategia construida sobre tales pronósticos cubra los ingresos generados por ella.
Finalmente, eche un vistazo al premio Nobel de economía en 2013 : "es muy posible prever el curso general de estos precios durante períodos más largos, como los próximos tres a cinco años". Eche un vistazo a la conferencia nobel de Shiller , que analiza la previsibilidad de los precios de los activos.
fuente
El análisis de series de tiempo también puede contribuir a una anomalía efectiva o detección atípica en datos temporales.
Como ejemplo, es posible ajustar un modelo ARIMA y calcular un intervalo de pronóstico. Dependiendo del caso de uso, el intervalo se puede usar para establecer un umbral, dentro del cual se puede decir que el proceso está bajo control; Si los datos nuevos caen fuera del umbral, se marcan para mayor atención.
Esta publicación de blog tiene una breve descripción general del análisis de series temporales para la detección de valores atípicos. Para un tratamiento más profundo, los investigadores de eBay explican cómo llevaron a cabo la detección de anomalías a escala basándose en el análisis estadístico de datos de series temporales.
fuente
Responde su propia pregunta, a continuación: autocorrelación. Las series de tiempo generalmente lo tienen, violando un supuesto de regresión básica de OLS. Las técnicas de series de tiempo tienen los supuestos apropiados para las series de tiempo.
Los métodos de aprendizaje automático que se ocupan de datos secuenciales son especializados, como las redes neuronales recurrentes (RNN) o las redes neuronales convolucionales 1-D (CNN), por lo que aún tiene técnicas especializadas para series temporales.
Los intervalos de confianza (IC) resultantes de una técnica de series de tiempo probablemente serán mayores que los de una regresión que no sea de series de tiempo. Esta característica se conoce como precisa. En general, cuando usa una regresión que no es una serie temporal, su CI será más pequeño pero es incorrecto porque ha violado sus suposiciones. Si todo lo que quiere hacer es presentar un gráfico con pequeños elementos de configuración, compóngalos u omitir los elementos de configuración por completo, pero si desea elementos de configuración apropiados, utilice las técnicas adecuadas.
El mercado de valores es difícil de predecir debido a su naturaleza. Otras series de tiempo son mucho más predecibles. Intente utilizar su técnica de aprendizaje automático de elección en el mercado de valores y dudo que tenga más éxito.
Para predecir Para ver la estacionalidad. Tener una idea sobre la variabilidad de los datos en diferentes estaciones. Sin mencionar que hay técnicas de series de tiempo más poderosas que la ARIMA de la vieja escuela, como los métodos de espacio estatal. ARIMA no es la mejor técnica para modelar series temporales. (De hecho, el procedimiento ARIMA en su software estadístico de elección probablemente esté utilizando una representación de espacio de estado bajo el capó).
fuente
Para agregar algo de color a la respuesta de detección de anomalías por redhqs, en el trabajo construyo modelos de detección de anomalías para métricas operativas como ventas y flujos de tráfico. Hacemos el análisis de series de tiempo para comprender cuáles deberían ser las ventas si todo funciona como se esperaba, y luego los comparamos con los valores observados para ver si el sitio web está roto. Es importante porque por cada minuto que el sitio está caído estamos perdiendo mucho dinero.
Hay diferentes métodos que puede usar, y diferentes métodos intentan lograr diferentes cosas en muchos casos. Por ejemplo, el método estadístico principal que he utilizado para la detección de anomalías de ventas se llama "STL" (descomposición de tendencia estacional usando loess). Esto separa la estacionalidad regular, la tendencia y el ruido aleatorio. De hecho, utilizamos esto para identificar las estacionalidades diarias y semanales. Luego desechamos el ruido y combinamos la tendencia / estacionalidad para estimar las ventas esperadas. Entonces, en nuestro caso, utilizamos el enfoque para comprender cómo varían las ventas con la hora del día y la hora de la semana, y para excluir el ruido aleatorio de las estimaciones.
fuente
Además de las excelentes respuestas proporcionadas por otros, me gustaría comentar cómo se utilizan los análisis de series temporales en ingeniería eléctrica.
Una gran parte de la ingeniería eléctrica consiste en modular voltajes y corrientes para transmitir información, o usar sensores para convertir una señal física (como una onda de sonido) en una forma eléctrica, de la cual se espera que una computadora tome una decisión. ¡Un convertidor analógico a digital (A / D) traduce estas señales en un conjunto de muestras discretas espaciadas uniformemente (en el tiempo), o una serie de tiempo! Los métodos de análisis de series temporales son la base de casi todos los algoritmos modernos de procesamiento de señales.
Por ejemplo, el procesamiento del habla consiste en usar un micrófono para convertir una onda de sonido a un voltaje eléctrico, que es muestreado por un A / D, después de lo cual se crea un modelo de serie de tiempo de la señal. Por ejemplo, los codificadores predictivos lineales (LPC) en los teléfonos celulares crean un modelo ARMA de las palabras que se hablan y transmiten los coeficientes del modelo (junto con un índice que representa una señal de excitación de un diccionario predefinido) en lugar de las muestras de datos para lograr compresión de datos.
fuente