¿Es válido agregar una serie temporal para que parezca más significativa?

10

Otra pregunta sobre series de tiempo de mi parte.

Tengo un conjunto de datos que proporciona registros diarios de incidentes violentos en un hospital psiquiátrico durante tres años. Con la ayuda de mi pregunta anterior, he estado jugando con ella y ahora estoy un poco más feliz.

Lo que tengo ahora es que la serie diaria es muy ruidosa. Fluctúa enormemente, hacia arriba y hacia abajo, desde 0 a veces hasta 20. Usando gráficos de loess y el paquete de pronóstico (que puedo recomendar para principiantes como yo), solo obtengo una línea totalmente plana, con intervalos de confianza masivos del pronóstico.

Sin embargo, agregar datos semanales o mensuales tiene mucho más sentido. Se barren desde el comienzo de la serie, y luego aumentan nuevamente en el medio. El trazado de Loess y el paquete de pronóstico producen algo que parece mucho más significativo.

Sin embargo, se siente un poco como hacer trampa. ¿Prefiero las versiones agregadas porque se ven bien sin ninguna validez real?

¿O sería mejor calcular un promedio móvil y usarlo como base? Me temo que no entiendo la teoría detrás de todo esto lo suficientemente bien como para tener confianza en lo que es aceptable

Chris Beeley
fuente

Respuestas:

8

Esto depende totalmente de su serie temporal y del efecto que desea descubrir / probar, etc.

Una cosa importante aquí es qué tipo de períodos tiene en sus datos. Haga un espectro de sus datos y vea qué frecuencias son comunes en sus datos.

De todos modos, no mientes cuando decides mostrar valores agregados. Cuando busca efectos que ocurren durante semanas (como más violencia en verano cuando hace calor), es lo correcto.

Quizás también puedas echar un vistazo a la Transformación Hilbert Huang. Esto le dará funciones de modo intrínseco que son muy útiles para los análisis visuales.

Peter Smit
fuente
12

Es muy común en el pronóstico agregar datos para aumentar la relación señal / ruido. Hay varios documentos sobre el efecto de la agregación temporal en la precisión de los pronósticos en economía, por ejemplo. Lo que probablemente esté viendo en los datos diarios es una señal débil que está siendo inundada por el ruido, mientras que los datos semanales y mensuales muestran una señal más fuerte que es más visible.

Si desea utilizar la agregación temporal depende completamente de cuál sea su propósito. Si necesita pronósticos de incidentes diarios, entonces la agregación no será de mucha utilidad. Si está interesado en explorar los efectos de varias covariables sobre la frecuencia de incidencia, y todos sus datos están disponibles a diario, entonces probablemente usaría los datos diarios, ya que proporcionará un tamaño de muestra más grande y probablemente le permitirá detectar Los efectos más fácilmente.

Dado que está utilizando el paquete de pronóstico, presumiblemente esté interesado en el pronóstico de series de tiempo. Entonces, ¿necesita pronósticos diarios, pronósticos semanales o pronósticos mensuales? La respuesta determinará si la agregación es apropiada para usted.

Rob Hyndman
fuente
1

El problema (dilema) que enfrenta parece ser el de seleccionar un intervalo de muestreo óptimo (o bueno) para revisar sus pronósticos. Para empezar, vea el texto del enlace del famoso libro de Brown, que también calificaría como una buena referencia. Todo se reduce a "equilibrar el riesgo de no notar un cambio rápidamente contra la variabilidad inherente de los datos y el costo de revisar los planes con frecuencia". Si no está preparado para revisar su pronóstico (y las decisiones que lo motivaron) diariamente, realmente no necesita usar los datos diarios (más ruidosos). Un punto importante, a menudo perdido en la literatura contemporánea sobre pronósticos, es que los pronósticos solo son necesarios para ayudar a tomar una decisión (a menos que uno también sepa cómo obtener diversión de ellos).

Hibernando
fuente