Predicción de Poisson, precisión e intervalos de predicción

8

Estoy tratando de pronosticar Poissondatos, divididos en grupos, de 1-26 months of data, dependiendo del grupo. De los datos agrupados 65% has a value of 0y 25% a value of 1. No pude encontrar ninguna tendencia o estacionalidad, así que comencé a probar un par de modelos de estación diferentes. Moving average (3)` Moving Average (6)` Simple Exponential Smoothing, Naïvey Simple Mean.

Necesito pronosticar con 1-6 meses de anticipación y usarlo MAD, MSEy RMSEprobar la precisión de los modelos. Parece que el más preciso es Simple Mean, con an RMSE of 1y an MAD of 0,638. Creo que esto es realmente alto, pero no tengo idea de cómo hacer algo al respecto.

¿Existen métodos de pronóstico en los que no pensé que podrían ser mucho mejores? ¿Estoy pasando por alto algo?

Lo único que pude encontrar sobre los intervalos de predicción fue F+tsy F-tscon el Fpronóstico, la tdistribución t con alfa (n-2)y sla desviación estándar. No creo que fuera una fuente realmente confiable, pero como no pude encontrar nada más, no estoy seguro de cómo configurar esos intervalos de predicción. ¿Es correcto este método?

No tengo R para usar. Necesito hacerlo yo mismo.

R. White
fuente

Respuestas:

11

Tiene lo que se llama demanda intermitente , es decir, una serie temporal de demanda caracterizada por "muchos" ceros. (Si su serie temporal no es demanda per se, la mayor parte de lo que sigue se aplicará). Por lo tanto, una búsqueda en la web para "pronosticar la demanda intermitente" ya sería útil. Teunter y Duncan (2009, JORS) ofrecen una visión general de los métodos de predicción de demanda intermitente.

El método estándar para pronosticar demandas intermitentes es el método de Croston. Utilice el suavizado exponencial en intervalos entre demanda y en tamaños de demanda distintos de cero por separado . El pronóstico puntual es la relación entre la demanda suavizada distinta de cero y el intervalo interdemanda suavizado. Syntetos y Boylan (2001, IJPE) señalan que Croston es ligeramente parcial y proponen una modificación, pero esto generalmente no hace tanta diferencia en la práctica.

Una alternativa son los modelos de promedio móvil autorregresivo entero (INARMA), que modifican los modelos estándar de series temporales ARIMA. Maryam Mohammadipour escribió una tesis sobre estos.

Personalmente tengo grandes dudas sobre la utilidad de tal pronóstico de punto de expectativa. Una serie temporal de 1 demanda cada dos períodos tiene una expectativa de 0.5 ... al igual que una serie temporal de 2 demandas cada cuarto período de tiempo ... y así sucesivamente, aunque estos son, por supuesto, cada vez menos Poisson-y . Yo diría que es mucho más útil comprender toda la distribución futura (y predictiva) de las demandas. ¡Así que aplaudo su búsqueda de intervalos de predicción!

sin embargo, el α(n2)La fórmula que encontró se aplica solo al suavizado exponencial simple en datos continuos , a través del modelo ARIMA SES es óptimo para. Por lo tanto, no es aplicable contar datos. Prefiero proponerle que tome su punto de prediccióny^ y usar cuantiles de la distribución de Poisson con parámetro λ=y^. Esto todavía ignora la incertidumbre de la estimación de parámetros (junto con la incertidumbre de selección del modelo, etc.), pero es una posibilidad simple y probablemente mejor que la fórmula que tiene.

Shenstone y Hyndman (2005, JoF) señalan que no existe un modelo estocástico consistente para el cual el método de Croston sería óptimo: todos los modelos candidatos son (1) continuos, no discretos, y (2) pueden arrojar valores negativos. Sin embargo, para esos modelos candidatos, Shenstone y Hyndman proporcionan intervalos de predicción.

Finalmente, una advertencia: no use el MAD para evaluar la precisión de los pronósticos de datos de conteo, especialmente no para demandas intermitentes. El MAD esperado se minimiza por la mediana de su distribución futura, no su media , y si escribe que el 65% de sus datos son ceros, entonces la mediana es cero ... lo que implica que probablemente obtendrá el MAD más bajo por un plano pronóstico cero, que está muy sesgado y probablemente inútil. Aquí hay una presentación que hice en el Simposio Internacional sobre Pronósticos del año pasado sobre este tema. O mira Morlidge (2015, Previsión) .

Pieza final de autopromoción descarada: tengo un artículo en la FIJ (Kolassa, 2016) que analiza la predicción de datos de recuento de bajo volumen (en su mayoría intermitentes), con diferentes medidas de precisión y diferentes métodos de predicción, incluidos varios sabores de los modelos de Poisson. esto puede ser útil para ti!

Stephan Kolassa
fuente
1
Gracias por la reacción de Stephan. Me das muchos nuevos conocimientos y percepciones, estoy cambiando completamente mi camino. Me gustaría mucho un PDF de su manuscrito, creo que sería realmente útil
R. White
1
Otra pregunta, si no te importa. Este artículo describe cómo debo probar la intermitencia en mis datos. Ahora noto que muchas de las medianas de qicada grupo tienen un valor de 1. Bajar no es realmente posible, por lo que supondría que la mayoría de mis grupos no son intermitentes, ¿verdad?
R. White
1
Esa clasificación es nueva para mí. Ciertamente no es común en la literatura académica. Sin embargo, conozco a los autores de ese artículo de SAS, y generalmente saben lo que están haciendo. Le recomiendo que pruebe métodos intermitentes y no intermitentes en sus datos y vea cuál funciona mejor, luego vea si eso tiene algo que ver con los criterios dados en el documento SAS. Syntetos y Boylan (2005) y Boylan et al. (2008) dan clasificaciones alternativas.
Stephan Kolassa
3
Las demandas intermitentes son difíciles de pronosticar. El problema es que la diferencia entre la demanda cero y la demanda distinta de cero es (¡relativamente!) Grande, y que generalmente no sabemos cuándo ocurrirá la demanda distinta de cero. Sugiero que ejecutes algunas simulaciones. Simule variables aleatorias de Poisson y verifique qué RMSE obtiene cuando pronostica la expectativa (¡conocida!). Esto simula la situación en la que sabe qué tan alta es la demanda en promedio , pero no sabe cuándo ocurrirá la demanda. Probablemente encontrará que los RMSE son bastante grandes.
Stephan Kolassa
2
En pocas palabras: a menos que pueda pronosticar cuándo ocurrirá la demanda, las demandas intermitentes son difíciles de pronosticar. Además, si pronostica que la demanda ocurrirá en el períodot, Pero no ocurrirá en el periodot+1, eso puede estar bastante bien para sus procesos que consumen pronósticos, pero RMSE y otras medidas de error seguirán contando esto como un fracaso. Kourentzes (2014 - citado en mi artículo) ha presentado ideas para medidas de error que se basan en pronósticos y demandas acumulativos que penalizan este tipo de "error de tiempo" con menos fuerza que los "errores de tiempo" más grandes.
Stephan Kolassa