¿Encontrar grupos de un conjunto de puntos alrededor de otro conjunto de puntos de diferentes capas?

10

Quiero ver si hay una agrupación de cierto tipo de edificios (x) alrededor de otro tipo de edificios (y).

Los dos archivos de puntos están en capas diferentes.

No puedo entender qué herramienta usaría para hacer esto.

arcgis-desktop geoprocessing clustering Nikki
fuente

9

Ninguna de las herramientas listas para usar en ArcGIS (o cualquier otro SIG, AFAIK) hará el trabajo correctamente.

En un problema como este, debe cuantificar lo que quiere decir con "agrupamiento" y luego debe plantear un modelo de probabilidad para evaluar si el grado medido de agrupamiento podría haberse producido por casualidad.

Como ejemplo de cómo proceder, puede optar por medir la agrupación en términos de distancias típicas entre edificios de tipo x y el edificio más cercano de tipo y . Este es un cálculo fácil: simplemente represente ambos conjuntos de edificios mediante capas de puntos separadas y realice una unión espacial de las Y a las X. La tabla de atributos, que todavía tiene un registro para cada edificio tipo x , ahora incluirá la distancia a la y más cercana . Puede usar la distancia promedio como su medida.

Probar si esto podría ser el resultado del azar es más complicado. Una interpretación plausible de esta configuración es que la presencia anterior de edificios de tipo y fomentó el desarrollo de edificios de tipo x relativamente cerca de los y 's. De lo contrario, podríamos plantear la hipótesis de que los edificios de tipo x podrían haberse construido en cualquier lugar donde también aparecieron otros edificios. Esto lleva a la siguiente prueba de permutación simple . Cree una capa de puntos de todas las ubicaciones posibles donde podrían haber aparecido edificios tipo x . Esta capa podría ser la ubicación de todos los edificios en el área erigida durante el mismo período que la xedificios fueron (incluidos los x edificios en sí, por supuesto). Une espacialmente la capa y para obtener las distancias al edificio tipo y más cercano . El resto del cálculo funciona fuera de la tabla de atributos: se realizan los cálculos geográficos. Lo que hará es usar repetidamente un generador de números aleatorios para tomar una muestra aleatoria simple de todos estos edificios, cada muestra tiene exactamente la misma cantidad de elementos que los edificios de tipo x . Calcule la distancia promedio para esta muestra. Repita hasta que tenga muchas estadísticas de distancia promedio. Si casi todas estas distancias promedio obtenidas al azar son mayores que la distancia promedio que midió para la xtipo de edificios, puede concluir que las x no están agrupadas por casualidad: el efecto es real.

(Dichos cálculos se programan mejor en una plataforma adecuada para tales fines, como 'R', pero casi cualquier software de computación puede ser puesto en servicio, incluso Excel. La programación es muy, requiere poco más que saber cómo escribir bucles y seleccionar elementos de matrices al azar).

Este enfoque de prueba de permutación es superior a las soluciones preprogramadas porque explica explícitamente los patrones de desarrollo de edificios en esta área. Si no se hace esto, a menudo se encuentran evidencia "significativa" de la agrupación, pero no se puede concluir nada útil a partir de ella, debido a que la agrupación puede haber sido causado por otros factores tales como los patrones de carreteras, las ubicaciones de sitios adecuados para el desarrollo, y muchas otras cosas.

whuber
fuente

1

Me doy cuenta de que esta respuesta es un poco abstracta. Cuando tenga más tiempo, intentaré crear una ilustración realista.

Whuber

Para aquellos que usan R, recomendaría que eche un vistazo al análisis de clúster en el paquete spatstat ( cran.r-project.org/web/packages/spatstat/index.html ).

om_henners

2

Por supuesto, su método de análisis de datos debe depender del problema sustantivo que motive el análisis.

Pero aquí hay algunas ideas:

De ESRI:

Cómo funciona el Análisis de conglomerados espaciales de distancias múltiples: la función k de Ripley (Estadística espacial) , donde i y j en la ecuación denotarían sus edificios x e y. La función K de Ripley proporcionará inferencia probabilística.

De la informática:

Existen algoritmos complejos para el descubrimiento de patrones de uso compartido que puede buscar en Google.

b_dev
fuente

La "idea de la trama simple" es interesante, pero necesita algo con lo que compararla: por sí misma es difícil extraer información útil de ella. La función K de Ripley también es una herramienta útil, pero desafortunadamente en muchos casos simplemente refleja la geometría del conjunto de datos. Con casas en un área suburbana o rural, que tienden a ubicarse a lo largo de características lineales (carreteras), la función K mostrará claramente la agrupación "significativa" solo por esta razón. ¡Como tal, no revela nada útil sobre las casas aparte de que están construidas cerca de las carreteras!

whuber

@whuber 1st, gracias por la explicación del problema de la función K de Ripley. En segundo lugar, cuando vemos una gráfica de los precios de las acciones a lo largo del tiempo, podemos buscar tendencias generales hacia arriba o hacia abajo o al azar, también podemos identificar los tiempos en que hubo grandes disminuciones o aumentos y preguntar por qué. Un diagrama de cómo cambia la concentración de edificios a medida que cambia la distancia se puede usar de la misma manera. Se puede usar para buscar picos en la concentración, lo cual es evidencia en contra de una distribución aleatoria, también se puede usar para enfocar la investigación adicional de picos curiosos.

b_dev

Tienes razón. Mi punto es que la trama en sí misma no nos dice nada sobre la agrupación. Quizás una buena analogía (en lugar de los precios de las acciones) es el mapa coroplético de números de casos de cáncer de riñón por estado 2000-2010 en los Estados Unidos. Eso tampoco nos dice nada sobre la agrupación (geográfica) porque no tiene en cuenta las variaciones en la población entre los estados. Del mismo modo, una gráfica de K cruzada necesita una normalización o referencia adecuada para ser interpretable. Las tendencias generales, los picos, etc., podrían estar reflejando los patrones geográficos de todas las ubicaciones de los edificios.

whuber

@whuber Tienes razón. Después de leer su comentario anterior, he decidido que mi idea de trama simple no proporcionará mucha información, al menos como se describió, por lo que la eliminé para no confundir a las personas. Ahora creo que la Estadística de recuento conjunto es el método más simple para abordar el problema.

b_dev

2

Yo mismo nunca he realizado análisis de conglomerados en SIG, pero sería más fácil si creara puntos / polígonos para representar un conglomerado dado de X y / o Y. Por ejemplo, si creó puntos para significar la construcción de Y, entonces podría use la herramienta Distancia de puntos para obtener todos los puntos del edificio X dentro de una distancia dada de sus ubicaciones de origen.

De lo contrario, crear un búfer alrededor de edificios de tipo Y y seleccionar todos los edificios de tipo X logrará el mismo resultado si no tiene ArcInfo.

Nathanus
fuente

0

Puede combinar ambas capas agregando una columna binaria (0,1) para identificar si el edificio es de X o Y.

A partir de ahí, utilizando GeoDa , podría identificar la autocorrelación espacial local (agrupación) y determinar si era alta-baja (una capa agrupada alrededor de la otra capa) baja-alta (la inversa) o alta-alta o baja-baja (auto- agrupamiento). Guía del usuario aquí (.pdf)

Rafael
fuente

¿Encontrar grupos de un conjunto de puntos alrededor de otro conjunto de puntos de diferentes capas?

Respuestas:

De ESRI:

De la informática: