Tengo una serie temporal binaria: tenemos 2160 datos (0 = no sucedió, 1 = sucedió) por un período de una hora en 90 días.
Quiero pronosticar después de estos 90 días, dónde ocurrirá el próximo 1, y también extender esta disposición para el próximo mes.
time-series
binary-data
amin abdolahnejad
fuente
fuente
Respuestas:
Un enfoque podría ser suponer que la secuencia de Bernoulli puede describirse mediante una variable aleatoria normal latente utilizando la transformación Probit. Esa es su donde e . De esta manera, puede colocar cualquier estructura de series de tiempo (por ejemplo, ARIMA) que desee en su variable y luego usar técnicas estándar de series de tiempo para predecir observaciones futuras (por ejemplo, Holt-Winters). Debería ser posible codificar algo como esto en Stan o JAGS, pero es posible que no obtenga grandes predicciones dada la visión "oscura del vidrio" que el proceso de Bernoulli le brinda sobre el estado latente.Xt∼Bernoulli(pt) pt∼Φ−1(Yt) Y∼N(μ,Σ) Y
fuente
El modelo más simple sería una regresión lineal. Puede trazar sus datos usando ggplot:
Este es el modelo más simple, hay otros modelos no lineales que podrían ajustarse mejor a sus datos. Además, tenga en cuenta que es posible que tenga que usar el registro de fecha para estar mejor en forma. En regresiones no lineales como la regresión polinómica, puede leer mucho aquí
Ahora, requeriría un análisis adicional, pero es esencial establecer si sus eventos son independientes. Es posible que exista algún tipo de variable de confusión que no tenga en cuenta. Es posible que desee analizar la regresión lineal bayesiana (dado que obtiene más dimensiones que solo el tiempo y los valores sí / no) aquí
fuente
Datos de accidentes? Comenzaría asumiendo que hay estacionalidad horaria y estacionalidad diaria. Sin saber el tipo de accidente, es posible que pueda ver la agrupación por hora de lunes a viernes y manejar por hora los sábados y domingos por separado, por lo que tiene 3 grupos de horas, 24 (lunes a viernes), 24 (sábado) y 24 (sol).
Podría ser posible una mayor reducción de datos, pero suponiendo que no, solo tome los promedios. Por ejemplo, el promedio para el domingo a las 3 p.m. podría ser .3 (30% de probabilidad de un accidente). El promedio para las 4pm puede ser .2, y así sucesivamente.
La probabilidad de que no ocurra un accidente en 3pm o 4pm sería (1-.3) (1-.2) = .56, por lo que la probabilidad de tener un accidente en estas dos horas sería de .44, y así sucesivamente.
Este parece ser un buen y simple lugar para comenzar.
fuente