Tengo un conjunto de datos mensuales de temperatura de la superficie del mar (SST) y quiero aplicar alguna metodología de clúster para detectar regiones con patrones de SST similares. Tengo un conjunto de archivos de datos mensuales que se ejecutan desde 1985 hasta 2009 y quiero aplicar el agrupamiento a cada mes como primer paso.
Cada archivo contiene datos cuadriculados para 358416 puntos donde aproximadamente el 50% son terrestres y están marcados con un valor de 99.99 que será NA. El formato de datos es:
lon lat sst
-10.042 44.979 12.38
-9.998 44.979 12.69
-9.954 44.979 12.90
-9.910 44.979 12.90
-9.866 44.979 12.54
-9.822 44.979 12.37
-9.778 44.979 12.37
-9.734 44.979 12.51
-9.690 44.979 12.39
-9.646 44.979 12.36
He intentado el método de agrupación CLARA y obtuve algunos resultados aparentemente buenos, pero también me parece que es solo suavizar (agrupar) las isolinas. Entonces no estoy seguro de que este sea el mejor método de agrupamiento para analizar datos espaciales.
¿Hay algún otro método de agrupación dedicado a este tipo de conjuntos de datos? Alguna referencia sería buena para comenzar a leer.
Gracias por adelantado.
fuente
Respuestas:
Hay un enfoque diferente para la agrupación escalable, el enfoque de división y conquista, la agrupación paralela y la incremental. Esto es para un enfoque general después de que pueda usar métodos de agrupación normales. Un buen método de agrupación que realmente aprecio es DBSCAN (agrupación espacial basada en densidad de aplicaciones con ruido), es uno de los algoritmos de agrupación más utilizados.
fuente
Una biblioteca de Python bien documentada para el análisis espacial que tiene algún agrupamiento es pySAL .
Otra biblioteca de Python en la etapa de desarrollo que se centra en la agrupación espacial es clusterPy (presentación de diapositivas en pdf) .
Con una opción más limitada de algoritmos de agrupamiento pero con una interfaz de mapeo agradable, es el software GUI GeoGrouper .
fuente