Tengo algunos datos de frecuencia acumulativa. Parece que una línea se ajusta muy bien a los datos, pero hay un movimiento cíclico / periódico en la línea. Me gustaría estimar cuándo la frecuencia acumulada alcanzará un cierto valor c . Cuando trazo los residuos frente a los valores ajustados, obtengo un hermoso comportamiento sinusoidal.
Ahora, para agregar otra complicación, tenga en cuenta que en los gráficos de residuos
Hay dos ciclos que tienen valores más bajos que los otros, lo que representa un efecto de fin de semana que también debe tenerse en cuenta.
Entonces, ¿a dónde voy desde aquí? ¿Cómo puedo combinar un término coseno, seno o cíclico en un modelo de regresión a aprox. estimar cuándo la frecuencia acumulativa será igual a ?
fuente
Comencemos observando que el ajuste de mínimos cuadrados ordinarios para estos datos es probablemente inapropiado. Si se supone que los datos individuales que se están acumulando, como de costumbre, tienen componentes de error aleatorios, entonces el error en los datos acumulativos ( no las frecuencias acumuladas, eso es algo diferente de lo que tiene) es la suma acumulativa de todos los términos de error. Esto hace que los datos acumulativos sean heterocedásticos (se vuelven más y más variables con el tiempo) y están fuertemente correlacionados positivamente. Debido a que estos datos se comportan con tanta regularidad, y hay muchos de ellos, hay pocos problemas con el ajuste obtendrá, pero sus estimaciones de errores, sus predicciones (que es de lo que se trata la pregunta), y especialmente sus errores estándar de predicción pueden estar muy lejos.
Un procedimiento estándar para analizar dichos datos comienza con los valores originales. Tome las diferencias del día a día para eliminar el componente sinusoidal de mayor frecuencia. Tome las diferencias semanales de aquellos para eliminar un posible ciclo de semana a semana. Analiza lo que queda. El modelado ARIMA es un enfoque poderoso y flexible, pero comienza simplemente: grafica esos datos diferenciados para ver qué está sucediendo y luego continúa desde allí. Tenga en cuenta también que con menos de dos semanas de datos, sus estimaciones del ciclo semanal serán pobres y esta incertidumbre dominará la incertidumbre en las predicciones.
fuente
Claramente, la oscilación dominante tiene período un día. Parece que también hay componentes de baja frecuencia relacionados con el día de la semana, por lo tanto, agregue un componente con frecuencia una semana (es decir, un séptimo del día) y sus primeros armónicos. Eso da un modelo de la forma:
- asumiendot se mide en días aquíy son los datos sin procesar , no su suma acumulativa.
fuente
¿Por qué no usar una GA para encontrar la amplitud, el período y la fase de una serie de seno (o coseno) secuencialmente y luego combinarla? Optimice lo siguiente: (n (n-1) / ((np-1) ^ 2 (np-2))) RSS
fuente