¿Cuál es el punto del análisis de series de tiempo?

29

¿Cuál es el punto del análisis de series de tiempo?

Existen muchos otros métodos estadísticos, como la regresión y el aprendizaje automático, que tienen casos de uso obvios: la regresión puede proporcionar información sobre la relación entre dos variables, mientras que el aprendizaje automático es excelente para la predicción.

Pero mientras tanto, no veo para qué sirve el análisis de series temporales. Claro, puedo ajustar un modelo ARIMA y usarlo para la predicción, pero ¿de qué sirve cuando los intervalos de confianza para esa predicción sean enormes? Hay una razón por la que nadie puede predecir el mercado de valores a pesar de ser la industria más basada en datos de la historia mundial.

Del mismo modo, ¿cómo lo uso para comprender mejor mi proceso? Claro, puedo trazar el ACF y decir "¡Ajá! ¡Hay cierta dependencia!", Pero ¿entonces qué? ¿Cuál es el punto de? Por supuesto que hay dependencia, por eso estás haciendo un análisis de series de tiempo para empezar. Ya sabías que había dependencia . ¿Pero para qué lo vas a usar?

Dhalsim
fuente
13
Existen otros casos de uso además de las finanzas y la economía donde funcionan bien.
user2974951
29
Tampoco puede predecir el mercado de valores utilizando otros métodos estadísticos y de aprendizaje automático, ¿esto también los hace inútiles?
Tim
16
Parece implicar que ARIMA no es una forma de regresión. Es.
Firebug
10
Creo que esta es una buena pregunta, incluso si la respuesta parece obvia para los expertos.
gung - Restablece a Monica
66
Ruego diferir con @gung y otros, porque la menor cantidad de esfuerzo de investigación lo respondería.
whuber

Respuestas:

54

Un uso principal es el . Llevo más de una década alimentando a mi familia pronosticando cuántas unidades de un producto específico venderá un supermercado mañana, para que pueda pedir suficiente stock, pero no demasiado. Hay dinero en esto.

Otros casos de uso de pronósticos se dan en publicaciones como International Journal of Forecasting o Foresight . (Divulgación completa: soy editor asociado de Foresight ).

Sí, a veces los son enormes. (Supongo que se refiere a IP, no . Hay una diferencia ) . Esto simplemente significa que el proceso es difícil de pronosticar. Entonces necesitas mitigar. Al pronosticar las ventas de supermercados, esto significa que necesita una gran cantidad de existencias de seguridad. Al pronosticar el aumento del nivel del mar, esto significa que necesita construir diques más altos. Yo diría que un intervalo de predicción grande proporciona información útil.

Y para todos los casos de uso de pronósticos, el análisis de temporales es útil, aunque el pronóstico es un tema más amplio. A menudo puede mejorar las previsiones teniendo en cuenta las dependencias de su serie temporal, por lo que debe comprenderlas a través del análisis, que es más específico que simplemente saber que existen dependencias.

Además, las personas están interesadas en series temporales incluso si no pronostican. A los econométricos les gusta detectar puntos de cambio en series cronológicas macroeconómicas. O evalúe el impacto de una intervención, como un cambio en las leyes tributarias, en el PIB u otra cosa. Es posible que desee leer su diario de econometría favorito para obtener más inspiración.

S. Kolassa - Restablece a Monica
fuente
14
+1. También es útil en otros lugares. Hacer un análisis de series de tiempo ciertamente lo alertará sobre eventos (que usted no conocía) que afecten un resultado que le interese. Yo y todos mis colegas quedamos completamente atónitos al descubrir que generalmente estábamos un poco peor en los análisis químicos del producto los martes por la mañana. Lo rastreamos hasta un programa de limpieza bien intencionado que tenía algunas debilidades. Durante el año, ahorramos cerca de un millón y mejoramos el ppk del producto de 1.7 a 1.9. Lección aprendida: siempre haga un análisis rudimentario de series de tiempo sobre cualquier problema enmarcado de variación.
Stian Yttervik
+1. @Stephan Kolassa, su respuesta destaca cómo se utilizan los pronósticos en el mundo real, que es mi interpretación de la pregunta del OP. El punto de intervalo de predicción y la longitud (media) es exactamente la información que le interesa para planificar estrategias de mitigación. Si está construyendo diques para evitar que Manhattan se inunde y su nuevo método de series de tiempo reduce el intervalo de predicción lo suficiente, puede reducir el costo de construcción del dique utilizando solo los recursos necesarios. Mutatis mutandis aplica para su ejemplo de supermercado.
Lucas Roberts
13

Objetivos en el Análisis TS de las diapositivas de la lección de M. Dettling

1) Análisis exploratorio: visualización de las propiedades de la serie.

  • trama de series de tiempo
  • descomposición en tendencia / patrón estacional / error aleatorio
  • correlograma para comprender la estructura de dependencia

2) Modelado: ajustando un modelo estocástico a los datos que representan y reflejan las propiedades más importantes de la serie

  • hecho exploratorio o con conocimiento previo
  • La elección del modelo y la estimación de parámetros es crucial
  • inferencia: ¿qué tan bien se ajusta el modelo a los datos?

3) Predicción: predicción de observaciones futuras con medida de incertidumbre

  • mayormente basado en modelos, usa dependencia y datos pasados
  • es una extrapolación, por lo tanto a menudo tomar con un grano de sal
  • similar a conducir un automóvil mirando por el espejo retrovisor

4) Control de proceso: la salida de un proceso (físico) define una serie de tiempo

  • Se ajusta un modelo estocástico a los datos observados.
  • Esto permite comprender tanto la señal como el ruido
  • es factible monitorear fluctuaciones normales / anormales

5) Regresión de series de tiempo: modelación de series de tiempo de respuesta utilizando 1 o más series de entrada Ajuste de este modelo bajo suposición de error iid:

  • conduce a estimaciones imparciales, pero ...
  • a menudo errores estándar muy incorrectos
  • por lo tanto, los intervalos de confianza y las pruebas son engañosas

Sobre el problema marcado stock:

  • Estos TS son muy volátiles, lo cual es difícil de modelar.
  • Por ejemplo, un cambio en una ley que concierne a la compañía podría conducir a un cambio en el proceso de TS ... ¿cómo podría predecirlo alguna herramienta estadística?

Sobre correlación serial:

  • A diferencia de las estadísticas multivariadas, los datos en una serie de tiempo generalmente no son iid, sino que están correlacionados en serie.
  • Esta información también puede ser útil para detectar algo que no es iid, lo que se supone que es, por ejemplo, un instrumento de laboratorio sucio.
Nicole Origami Fox
fuente
1
Agregaría clasificación, por ejemplo, hay numerosas aplicaciones que reconocen su actividad en función del análisis de los datos del acelerómetro de su teléfono.
SaiBot
¡Eso es interesante! ¿Cómo haces esto?
Nicole Origami Fox
1
Creo que hay muchas formas diferentes. Una forma sería permitir a los usuarios generar datos de capacitación etiquetando su actividad. Una vez que tenga eso, puede cortar su serie de tiempo en intervalos (superpuestos) (por ejemplo, 3 segundos) y entrenar un modelo de aprendizaje automático. Luego podrá clasificar las actividades no etiquetadas.
SaiBot
Gracias SaiBot. Ya veo, tengo que considerar la combinación de diferentes herramientas con más frecuencia :)
Nicole Origami Fox
11

La forma más fácil de responder a su pregunta es comprender que aproximadamente los conjuntos de datos a menudo se clasifican en secciones transversales , series de tiempo y paneles . La regresión de sección transversal es una herramienta de referencia para los conjuntos de datos de sección transversal. Esto es lo que la mayoría de la gente sabe y se refiere con un término de regresión . La regresión de series de tiempo a veces se aplica a series de tiempo, pero el análisis de series de tiempo tiene una amplia gama de herramientas más allá de la regresión.

(x1,y1),(x2,y3),,(xn,yn)xi,yiyxy^x

ingrese la descripción de la imagen aquí

Si la muestra no fue aleatoria, entonces la regresión puede no funcionar en absoluto. Por ejemplo, elegiste solo chicas en primer grado para estimar el modelo, pero tienes que predecir la altura de un estudiante de 12º grado. Entonces, la regresión tiene sus propios problemas incluso en la configuración transversal.

xt,yt(x1,y1),(x2,y3),,(xn,yn)tx,y

ingrese la descripción de la imagen aquí

t

El tercer tipo de conjunto de datos común es un panel, particularmente, el que contiene datos longitudinales. Aquí, puede obtener varias instantáneas de variables de peso y altura para varios estudiantes. Este conjunto de datos puede parecer oleadas de secciones transversales o un conjunto de series de tiempo.

ingrese la descripción de la imagen aquí

Naturalmente, esto puede ser más complicado que los dos tipos anteriores. Aquí utilizamos la regresión de paneles y otras técnicas especiales desarrolladas para paneles.

En resumen, la razón por la cual la regresión de series temporales se considera una herramienta distinta en comparación con la regresión transversal es que las series temporales presentan desafíos únicos cuando se trata de supuestos de independencia de la técnica de regresión. Particularmente, debido al hecho de que, a diferencia del análisis transversal, el orden de las observaciones es importante, generalmente conduce a todo tipo de estructuras de correlación y dependencia, que a veces pueden invalidar la aplicación de técnicas de regresión. Tienes que lidiar con la dependencia, y eso es exactamente en lo que es bueno el análisis de series de tiempo.

Previsibilidad de los precios de los activos

Además, está repitiendo un error común sobre los mercados de valores y los precios de los activos en general, que no se pueden predecir. Esta afirmación es demasiado general para ser verdad. Es cierto que no puede predecir directamente el siguiente paso de AAPL de manera confiable. Sin embargo, es un problema muy limitado. Si amplía su red, descubrirá muchas oportunidades para ganar dinero utilizando todo tipo de pronósticos (y análisis de series temporales en particular). El arbitraje estadístico es uno de esos campos.

Ahora, la razón por la cual los precios de los activos son difíciles de predecir a corto plazo se debe al hecho de que un gran componente de los cambios de precios es información nueva. La información verdaderamente nueva que no se puede idear de manera realista del pasado es, por definición, imposible de predecir. Sin embargo, este es un modelo idealizado, y mucha gente argumentaría que existen anomalías que permiten la persistencia del estado. Esto significa que la parte del cambio de precio puede explicarse por el pasado. En tales casos, el análisis de series de tiempo es bastante apropiado porque trata con precisión la persistencia. Separa lo nuevo de lo viejo, lo nuevo es imposible de predecir, pero lo viejo se arrastra del pasado hacia el futuro. Si puede explicar incluso un poco, en finanzas significa que puedeser capaz de ganar dinero Siempre y cuando el precio de la estrategia construida sobre tales pronósticos cubra los ingresos generados por ella.

Finalmente, eche un vistazo al premio Nobel de economía en 2013 : "es muy posible prever el curso general de estos precios durante períodos más largos, como los próximos tres a cinco años". Eche un vistazo a la conferencia nobel de Shiller , que analiza la previsibilidad de los precios de los activos.

Aksakal
fuente
6

El análisis de series de tiempo también puede contribuir a una anomalía efectiva o detección atípica en datos temporales.

Como ejemplo, es posible ajustar un modelo ARIMA y calcular un intervalo de pronóstico. Dependiendo del caso de uso, el intervalo se puede usar para establecer un umbral, dentro del cual se puede decir que el proceso está bajo control; Si los datos nuevos caen fuera del umbral, se marcan para mayor atención.

Esta publicación de blog tiene una breve descripción general del análisis de series temporales para la detección de valores atípicos. Para un tratamiento más profundo, los investigadores de eBay explican cómo llevaron a cabo la detección de anomalías a escala basándose en el análisis estadístico de datos de series temporales.

redhqs
fuente
6

Existen muchos otros métodos estadísticos, como la regresión y el aprendizaje automático, que tienen casos de uso obvios: la regresión puede proporcionar información sobre la relación entre dos variables, mientras que el aprendizaje automático es excelente para la predicción.

Responde su propia pregunta, a continuación: autocorrelación. Las series de tiempo generalmente lo tienen, violando un supuesto de regresión básica de OLS. Las técnicas de series de tiempo tienen los supuestos apropiados para las series de tiempo.

Los métodos de aprendizaje automático que se ocupan de datos secuenciales son especializados, como las redes neuronales recurrentes (RNN) o las redes neuronales convolucionales 1-D (CNN), por lo que aún tiene técnicas especializadas para series temporales.

Pero mientras tanto, no veo para qué sirve el análisis de series temporales. Claro, puedo ajustar un modelo ARIMA y usarlo para la predicción, pero ¿de qué sirve cuando los intervalos de confianza para esa predicción sean enormes? Hay una razón por la que nadie puede predecir el mercado de valores a pesar de ser la industria más basada en datos de la historia mundial.

Los intervalos de confianza (IC) resultantes de una técnica de series de tiempo probablemente serán mayores que los de una regresión que no sea de series de tiempo. Esta característica se conoce como precisa. En general, cuando usa una regresión que no es una serie temporal, su CI será más pequeño pero es incorrecto porque ha violado sus suposiciones. Si todo lo que quiere hacer es presentar un gráfico con pequeños elementos de configuración, compóngalos u omitir los elementos de configuración por completo, pero si desea elementos de configuración apropiados, utilice las técnicas adecuadas.

El mercado de valores es difícil de predecir debido a su naturaleza. Otras series de tiempo son mucho más predecibles. Intente utilizar su técnica de aprendizaje automático de elección en el mercado de valores y dudo que tenga más éxito.

Del mismo modo, ¿cómo lo uso para comprender mejor mi proceso? Claro, puedo trazar el ACF y decir "¡Ajá! ¡Hay cierta dependencia!", Pero ¿entonces qué? ¿Cuál es el punto de? Por supuesto que hay dependencia, por eso estás haciendo un análisis de series de tiempo para empezar. Ya sabías que había dependencia. ¿Pero para qué lo vas a usar?

Para predecir Para ver la estacionalidad. Tener una idea sobre la variabilidad de los datos en diferentes estaciones. Sin mencionar que hay técnicas de series de tiempo más poderosas que la ARIMA de la vieja escuela, como los métodos de espacio estatal. ARIMA no es la mejor técnica para modelar series temporales. (De hecho, el procedimiento ARIMA en su software estadístico de elección probablemente esté utilizando una representación de espacio de estado bajo el capó).

Wayne
fuente
5

Para agregar algo de color a la respuesta de detección de anomalías por redhqs, en el trabajo construyo modelos de detección de anomalías para métricas operativas como ventas y flujos de tráfico. Hacemos el análisis de series de tiempo para comprender cuáles deberían ser las ventas si todo funciona como se esperaba, y luego los comparamos con los valores observados para ver si el sitio web está roto. Es importante porque por cada minuto que el sitio está caído estamos perdiendo mucho dinero.

Hay diferentes métodos que puede usar, y diferentes métodos intentan lograr diferentes cosas en muchos casos. Por ejemplo, el método estadístico principal que he utilizado para la detección de anomalías de ventas se llama "STL" (descomposición de tendencia estacional usando loess). Esto separa la estacionalidad regular, la tendencia y el ruido aleatorio. De hecho, utilizamos esto para identificar las estacionalidades diarias y semanales. Luego desechamos el ruido y combinamos la tendencia / estacionalidad para estimar las ventas esperadas. Entonces, en nuestro caso, utilizamos el enfoque para comprender cómo varían las ventas con la hora del día y la hora de la semana, y para excluir el ruido aleatorio de las estimaciones.

Willie Wheeler
fuente
Parece que construye modelos de series de tiempo que presumen que no hay anomalías, por lo tanto, puede no ser robusto, en contraste con las estrategias de identificación de modelos que permiten explícitamente la identificación simultánea de la parte SARIMA y la estructura de intervención en espera de ser descubierta (pulsos, cambios de nivel / paso , pulsos estacionales, tendencias de hora local)
IrishStat
El STL algo tiene un indicador de robustez (controla el número de iteraciones de un bucle de suavizado). Funciona muy bien para nuestra serie de tiempo de todos modos.
Willie Wheeler
El número de iteraciones no se ocupa del sesgo en forma de modelo si hay una estructura determinista presente esperando ser descubierta.
IrishStat
3

Además de las excelentes respuestas proporcionadas por otros, me gustaría comentar cómo se utilizan los análisis de series temporales en ingeniería eléctrica.

Una gran parte de la ingeniería eléctrica consiste en modular voltajes y corrientes para transmitir información, o usar sensores para convertir una señal física (como una onda de sonido) en una forma eléctrica, de la cual se espera que una computadora tome una decisión. ¡Un convertidor analógico a digital (A / D) traduce estas señales en un conjunto de muestras discretas espaciadas uniformemente (en el tiempo), o una serie de tiempo! Los métodos de análisis de series temporales son la base de casi todos los algoritmos modernos de procesamiento de señales.

Por ejemplo, el procesamiento del habla consiste en usar un micrófono para convertir una onda de sonido a un voltaje eléctrico, que es muestreado por un A / D, después de lo cual se crea un modelo de serie de tiempo de la señal. Por ejemplo, los codificadores predictivos lineales (LPC) en los teléfonos celulares crean un modelo ARMA de las palabras que se hablan y transmiten los coeficientes del modelo (junto con un índice que representa una señal de excitación de un diccionario predefinido) en lugar de las muestras de datos para lograr compresión de datos.

Robert L.
fuente