Análisis de series temporales con muchos valores cero

19

Este problema se trata realmente de la detección de incendios, pero es muy análogo a algunos problemas de detección de desintegración radiactiva. El fenómeno que se observa es esporádico y muy variable; así, una serie temporal consistirá en largas cadenas de ceros interrumpidos por valores variables.

El objetivo no es simplemente capturar eventos (rupturas en los ceros), sino caracterización cuantitativa de los eventos mismos. Sin embargo, los sensores son limitados y, por lo tanto, a veces registrarán cero incluso si la "realidad" no es cero. Por esta razón, se deben incluir ceros al comparar sensores.

El sensor B podría ser más sensible que el sensor A, y me gustaría poder describirlo estadísticamente. Para este análisis, no tengo "verdad", pero sí tengo un Sensor C, que es independiente de los Sensores A&B. Por lo tanto, mi expectativa es que un mejor acuerdo entre A / B y C indique un mejor acuerdo con la "verdad". (Esto puede parecer inestable, pero tendrás que confiar en mí, estoy en terreno firme aquí, según lo que se sabe de otros estudios sobre los sensores).

El problema, entonces, es cómo cuantificar "un mejor acuerdo de series de tiempo". La correlación es la opción obvia, pero se verá afectada por todos esos ceros (que no se pueden omitir) y, por supuesto, desproporcionadamente afectada por los valores máximos. RMSE también podría calcularse, pero se consideraría fuertemente en función del comportamiento de los sensores en el caso cercano a cero.

P1: ¿Cuál es la mejor manera de aplicar una escala logarítmica a valores distintos de cero que luego se combinarán con ceros en un análisis de series de tiempo?

P2: ¿Qué "mejores prácticas" puede recomendar para un análisis de series de tiempo de este tipo, donde el comportamiento en valores distintos de cero es el foco, pero los valores cero dominan y no pueden excluirse?

Ed Hyer
fuente

Respuestas:

11

Para reafirmar su pregunta "¿Cómo trata el analista con largos períodos sin demanda que no siguen un patrón específico?"

La respuesta a su pregunta es el análisis de demanda intermitente o el análisis de datos dispersos. Esto surge normalmente cuando tienes "muchos ceros" en relación con el número de ceros. El problema es que hay dos variables aleatorias; el tiempo entre eventos y el tamaño esperado del evento. Como dijiste, la autocorrelación (acf) del conjunto completo de lecturas no tiene sentido debido a la secuencia de ceros que mejora falsamente el acf. Puede seguir hilos como "Método de Croston", que es un procedimiento basado en modelos en lugar de un procedimiento basado en datos. El método de Croston es vulnerable a valores atípicos y cambios / tendencias / cambios de nivel en la tasa de demanda, es decir, la demanda dividida por el número de períodos desde la última demanda. Un enfoque mucho más riguroso podría ser buscar "Datos dispersos - Datos desigualmente espaciados" o búsquedas como esa. El profesor Ramesh Sharda de OSU me sugirió una solución bastante ingeniosa y la he estado utilizando durante varios años en mi práctica de consultoría. Si una serie tiene puntos temporales en los que surgen ventas y largos períodos de tiempo en los que no surgen ventas, es posible convertir las ventas en ventas por período dividiendo las ventas observadas por el número de períodos sin ventas, obteniendo así una tasa. Entonces es posible identificar un modelo entre la tasa y el intervalo entre ventas que culmina en una tasa pronosticada y un intervalo pronosticado. Puede encontrar más información sobre esto en autobox.com y google "demanda intermitente" Si una serie tiene puntos temporales en los que surgen ventas y largos períodos de tiempo en los que no surgen ventas, es posible convertir las ventas en ventas por período dividiendo las ventas observadas por el número de períodos sin ventas, obteniendo así una tasa. Entonces es posible identificar un modelo entre la tasa y el intervalo entre ventas que culmina en una tasa pronosticada y un intervalo pronosticado. Puede encontrar más información sobre esto en autobox.com y google "demanda intermitente" Si una serie tiene puntos temporales en los que surgen ventas y largos períodos de tiempo en los que no surgen ventas, es posible convertir las ventas en ventas por período dividiendo las ventas observadas por el número de períodos sin ventas, obteniendo así una tasa. Entonces es posible identificar un modelo entre la tasa y el intervalo entre ventas que culmina en una tasa pronosticada y un intervalo pronosticado. Puede encontrar más información sobre esto en autobox.com y google "demanda intermitente"

IrishStat
fuente
1
Tengo un problema de previsión con demanda intermitente. Me han pedido que resuelva. Sé que hay varios softwares específicos para este tiempo de pronóstico, pero no son gratuitos. ¿Puede decirme si conoce alguna función incorporada en el software de código abierto (como R, por ejemplo) para resolver este problema? Estuve buscando pero no pude encontrarlo hasta ahora ... ¡Gracias!
Assu
1
@assu: no conozco ningún software gratuito que satisfaga sus necesidades.
IrishStat
44
@assu. La croston()función en el forecastpaquete en R implementará el método de Croston para pronosticar datos de demanda intermitente.
Rob Hyndman