Como pasatiempo secundario, he estado explorando las series temporales de pronósticos (en particular, usando R).
Para mis datos, tengo el número de visitas por día, por cada día que se remonta a casi 4 años. En estos datos hay algunos patrones distintos:
- De lunes a viernes tiene muchas visitas (mayor en lunes / martes), pero drásticamente menos en sábado y domingo.
- Ciertas épocas del año caen (es decir, muchas menos visitas durante los días festivos de EE. UU., Los veranos muestran menos crecimiento)
- Crecimiento significativo año a año
Sería bueno poder pronosticar un año próximo con esta información, y también usarla para tener un crecimiento mes a mes ajustado estacionalmente. Lo principal que me sorprende con una vista mensual es:
- Ciertos meses tendrán más lunes / martes que otros meses (y eso tampoco es consistente durante años). Por lo tanto, un mes que pase a más días de la semana debe ajustarse en consecuencia.
Explorar semanas también parece difícil ya que los sistemas de numeración de semanas cambian de 52 a 53 según el año, y parece ts
que no maneja eso.
Estoy pensando en tomar un promedio para los días de la semana del mes, pero la unidad resultante es un poco extraña (crecimiento en visitas promedio entre semana) y eso sería descartar datos que son válidos.
Creo que este tipo de datos sería común en las series de tiempo (por ejemplo, el uso de electricidad en el edificio de oficinas podría ser algo así), ¿alguien tiene algún consejo sobre cómo modelarlo, en particular, en R?
Los datos con los que estoy trabajando son bastante sencillos, comienzan así:
[,1]
2008-10-05 17607
2008-10-06 36368
2008-10-07 40250
2008-10-08 39631
2008-10-09 40870
2008-10-10 35706
2008-10-11 18245
2008-10-12 23528
2008-10-13 48077
2008-10-14 48500
2008-10-15 49017
2008-10-16 50733
2008-10-17 46909
2008-10-18 22467
y continúa así hasta el presente, con una tendencia general de crecimiento, algunas caídas alrededor de las semanas de vacaciones en Estados Unidos, y el crecimiento generalmente se desacelera durante el verano.
fuente
ts
(e inclusomsts
) no se ajusta a un período de muestreo de una semana con un período "natural" de un año (tampoco los calendarios, supongo). O simplemente no entiendo cómo hacer que eso funcione ...Respuestas:
Modelo así el tipo de datos todo el tiempo. Necesitas incorporar
El enfoque estadístico se denomina Modelado de funciones de transferencia con detección de intervención. Si desea compartir sus datos de forma privada a través de [email protected] o preferiblemente a través de SE, estaría encantado de mostrarle los detalles de un modelo final y ampliar su capacidad para hacerlo usted mismo o al menos para ayudarlo y otros para entender lo que hay que hacer y lo que se puede hacer. En cualquier caso, se vuelve más inteligente sin gastar ningún tesoro, ya sea en monedas o en tiempo. Puede leer algunas de mis otras respuestas a las preguntas de series de tiempo para obtener más información.
fuente