Tengo una pregunta sobre el análisis de conglomerados. Hay 3000 empresas, que deben agruparse de acuerdo con su consumo de energía durante 5 años. Cada empresa tiene valores por cada hora durante 5 años. Me gustaría saber si algunas empresas tienen el mismo patrón en el poder de uso durante el período de tiempo. Los resultados deben usarse para la predicción diaria del uso de energía. Si tiene algunas ideas sobre cómo agrupar series temporales en SPSS, comparta conmigo.
time-series
clustering
spss
usuario89686
fuente
fuente
Respuestas:
A) Dedique mucho tiempo a preprocesar los datos. El preprocesamiento es el 90% de su trabajo.
B) Elija una medida de similitud apropiada para la serie temporal. Por ejemplo, la distancia de cruce del umbral puede ser una buena opción aquí. Probablemente no desee una distancia de deformación dinámica del tiempo, a menos que tenga diferentes zonas horarias. El cruce del umbral puede ser más apropiado para detectar patrones temporales, sin prestar atención a la magnitud real (que probablemente será muy diferente de una compañía a otra).
C) Agrupe la matriz de disimilitud resultante utilizando métodos como la agrupación jerárquica o DBSCAN que pueden funcionar con funciones de distancia arbitrarias.
fuente
Es posible que desee ver la previsión de series de tiempo por hora con periodicidad diaria, semanal y anualpara una discusión de datos por hora que involucran datos diarios y días festivos / regresores. Tiene 5 años de datos, mientras que la otra discusión involucró 883 valores diarios. Lo que sugeriría es que podría crear un pronóstico por hora incorporando regresores como el día de la semana; semana del año y feriados usando totales diarios como un predictor adicional. De esta forma, tendría 24 modelos para cada una de las 3.000 empresas. Ahora, lo que desea hacer es por hora, estimar los 3.000 modelos utilizando una estructura ARIMAX común que representa el patrón de respuesta alrededor de cada uno de los regresores, el día de la semana, los cambios en el día de la semana. parámetros e indicadores semanales mientras se aíslan los valores atípicos. Luego, podría estimar los parámetros a nivel mundial utilizando las 3000 empresas. Realice una prueba de Chow http://en.wikipedia.org/wiki/Chow_testpara la constancia de los parámetros y al rechazar agrupar a las empresas en grupos homogéneos. Me he referido a esto como análisis de clúster de dimensión única. Dado que SPSS tiene capacidades muy limitadas en series de tiempo, es posible que desee buscar software en otro lugar.
fuente