Tengo un conjunto de ubicaciones en coordenadas geográficas, y me gustaría agrupar los puntos mediante el agrupamiento jerárquico seguido de la tala de árboles en varias "alturas" con el fin de calcular las medias de las variables agrupadas en cada ubicación.
La agrupación jerárquica de la matriz de distancia de coordenadas geográficas, supongo, puede ser una forma engañosa de formar grupos porque la latitud y la longitud no están igualmente espaciadas.
Entonces puedo imaginar dos caminos a seguir:
- Usando la gran distancia del círculo para la distancia métrica.
- Convirtiendo las coordenadas geográficas en una proyección igualmente escalada y luego encontrando la distancia euclidiana.
Además de que la opción dos es más complicada de realizar, ¿son equivalentes estos enfoques? ¿Y cuál es exactamente el significado de la altura de corte del árbol en estos casos?
distance
clustering
mapas digitales
fuente
fuente
Respuestas:
Gracias a @whuber por ponerme en el camino correcto aquí. Parece que no habrá respuestas adicionales en el futuro, por lo que resolveré esta pregunta publicando mis propias observaciones que pueden ser útiles para que otros aprendan sobre distancias, agrupaciones y proyecciones.
El siguiente código R, mediante el
geosphere
,rgdal
ysp
paquetes demuestra que la selección cuidadosa de la proyección adecuada puede dar una matriz de distancia precisa (donde precisa se define como la distancia geodésica) cuando los puntos son de hasta 2000 km entre sí (ejes están en metros).Las gráficas de los elementos de estas tres matrices de distancia se muestran a continuación. El gráfico a la izquierda indica que la proyección seleccionada está altamente correlacionada con la distancia geodésica a través del rango de distancias utilizadas aquí. Mientras que la gráfica correcta muestra el error considerable que se esperaría si se usaran coordenadas geográficas no proyectadas.
fuente