¿Comparando dos patrones de puntos espaciales?

41

Si tengo distribuciones de patrones de dos puntos dentro de la misma región geográfica, ¿cómo haría para comparar visual y cuantitativamente esas dos distribuciones?

También suponga que tengo muchos puntos dentro de una región más pequeña, por lo que simplemente mostrar un mapa pin no es informativo.

Andy W
fuente

Respuestas:

32

Como siempre, depende de sus objetivos y de la naturaleza de los datos. Para datos completamente mapeados , una herramienta poderosa es la función L de Ripley, un pariente cercano de la función K de Ripley . Gran cantidad de software puede calcular esto. ArcGIS podría hacerlo por ahora; No lo he comprobado. CrimeStat lo hace. Lo mismo ocurre con GeoDa y R . Un ejemplo de su uso, con mapas asociados, aparece en

Sinton, DS y W. Huber. Cartografía de la polca y su herencia étnica en los Estados Unidos. Revista de Geografía vol. 106: 41-47. 2007

Aquí hay una captura de pantalla de CrimeStat de la versión "L function" de Ripley's K:

Captura de pantalla de la función K de Ripley

La curva azul documenta una distribución de puntos muy no aleatoria, ya que no se encuentra entre las bandas rojas y verdes que rodean a cero, que es donde debería estar el rastro azul para la función L de una distribución aleatoria.

Para los datos muestreados, mucho depende de la naturaleza del muestreo. Un buen recurso para esto, accesible para aquellos con antecedentes limitados (pero no totalmente ausentes) en matemáticas y estadísticas, es el libro de texto de Steven Thompson sobre Muestreo .

Es generalmente el caso de que la mayoría de las comparaciones estadísticas pueden ilustrarse gráficamente y todas las comparaciones gráficas corresponden o sugieren una contraparte estadística. Por lo tanto, cualquier idea que obtenga de la literatura estadística puede sugerir formas útiles de mapear o comparar gráficamente los dos conjuntos de datos.

whuber
fuente
Gracias por el artículo de Dixon, parece ser un excelente recurso. Nunca me había encontrado con la distinción entre interacción espacial y etiquetado aleatorio para patrones multivariados. Tendré que leer.
Andy W
+1 Buenos recursos. Entonces, ¿el viejo truco de pesca de que "el 90% de los peces están en el 10% del lago" realmente depende del método de muestreo?
Kirk Kuykendall
@Kirk Para muchos de nosotros, ¡el 0% de los peces están en el 10% del lago que realmente logramos alcanzar!
whuber
14

Nota: lo siguiente fue editado después del comentario de whuber

Es posible que desee adoptar un enfoque de Monte Carlo. Aquí hay un ejemplo simple. Suponga que desea determinar si la distribución de los eventos delictivos A es estadísticamente similar a la de B, podría comparar la estadística entre los eventos A y B con una distribución empírica de dicha medida para los 'marcadores' reasignados aleatoriamente.

Por ejemplo, dada una distribución de A (blanco) y B (azul),

ingrese la descripción de la imagen aquí

reasigna aleatoriamente las etiquetas A y B a TODOS los puntos del conjunto de datos combinado. Este es un ejemplo de una sola simulación:

ingrese la descripción de la imagen aquí

Repite esto muchas veces (digamos 999 veces), y para cada simulación, calcula una estadística (estadística vecina más cercana promedio en este ejemplo) usando los puntos etiquetados aleatoriamente. Los fragmentos de código que siguen están en R (requiere el uso de la biblioteca de statstat ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

Luego puede comparar los resultados gráficamente (la línea vertical roja es la estadística original),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

ingrese la descripción de la imagen aquí

o numéricamente

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

Tenga en cuenta que la estadística promedio de vecinos más cercanos puede no ser la mejor medida estadística para su problema. Estadísticas como la función K podrían ser más reveladoras (ver la respuesta de whuber).

Lo anterior podría implementarse fácilmente dentro de ArcGIS usando Modelbuilder. En un bucle, reasigna aleatoriamente los valores de los atributos a cada punto y luego calcula una estadística espacial. Debería poder contar los resultados en una tabla.

MannyG
fuente
2
Es posible que desee considerar una prueba de permutación en lugar del enfoque de densidad del núcleo, Manny. La hipótesis nula es que las etiquetas azul y blanca son independientes de los puntos. Para probar esto, adopte una estadística apropiada para el vecindario (como la distancia media más cercana entre los puntos azules y blancos, recorriendo las calles). Reasigna aleatoriamente los colores a todos los puntos, manteniendo las mismas cantidades de azul y blanco, y recalcula la estadística. Repita muchas veces para estimar la distribución nula de la estadística. Refiera el valor real de la estadística a esta distribución para obtener un valor p.
whuber
Gracias whuber. Nunca se me ocurrió ver esto como un problema puntual marcado. Actualicé mi respuesta para reflejar este enfoque. Sin embargo, no me queda claro por qué mi enfoque original (es decir, usar una cuadrícula de densidad del núcleo para generar puntos aleatorios) resultó en un resultado diferente. De hecho, (mi solución original) no reflejaba fielmente el hecho de que tanto A como B provenían de un proceso similar. ¿Es esto porque el enfoque de densidad del núcleo no aprovecha los detalles que nos proporcionan los datos de puntos?
MannyG
1
La densidad del núcleo tiene un pequeño elemento de arbitrariedad (asociado con la elección del medio ancho). Esto puede hacer la diferencia. También está algo alejado de lo que realmente está sucediendo: hay un proceso subyacente que produce puntos; ves una realización de ese proceso; haces un KDE de ella ; entonces dibujas nuevas realizaciones de ese KDE. En efecto, solo está reproduciendo nuevas configuraciones muy parecidas a la configuración única que observa. En el enfoque de permutación, la hipótesis nula de que ambas distribuciones son iguales justifica permutar las marcas: esto es directo y poderoso.
whuber
1
Gracias por el aporte, daré un comentario más completo cuando tenga más tiempo. Sería bueno tener en cuenta este código R (¿mencionó incluso que es el código R en la respuesta?) Y utiliza funciones en el spatstatpaquete.
Andy W
2
+1, una de las cosas buenas de utilizar pruebas de permutación como esta es 1) cuando se limita a la especificidad del geocodificador (direcciones o rangos de direcciones para datos de delitos en la mayoría de las circunstancias) evaluar patrones de puntos en comparación con la aleatoriedad espacial completa tampoco mucho sentido 2) Tales pruebas de permutación evitan problemas con los efectos de borde. Por supuesto, se trata de generalizaciones excesivas, pero creo que dicho marco puede generalizarse para evaluar muchos tipos diferentes de estadísticas de patrones de puntos.
Andy W
4

Es posible que desee consultar CrimeStat.

Según el sitio web:

CrimeStat es un programa de estadísticas espaciales para el análisis de ubicaciones de incidentes delictivos, desarrollado por Ned Levine & Associates, que fue financiado por subvenciones del Instituto Nacional de Justicia (subvenciones 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007 y 2005-IJ-CX-K037). El programa está basado en Windows e interactúa con la mayoría de los programas GIS de escritorio. El propósito es proporcionar herramientas estadísticas suplementarias para ayudar a los organismos encargados de hacer cumplir la ley y los investigadores de justicia penal en sus esfuerzos de mapeo del delito. CrimeStat está siendo utilizado por muchos departamentos de policía de todo el mundo, así como por la justicia penal y otros investigadores. La última versión es 3.3 (CrimeStat III).

RK
fuente
2

Un enfoque simple y rápido podría ser crear mapas de calor y un mapa de diferencias de esos dos mapas de calor. Relacionado: ¿Cómo construir mapas de calor efectivos?

bajo oscuro
fuente
3
Desafortunadamente, diferenciar dos mapas interpolados o suavizados tiende a decirle mucho más sobre el método de interpolación o suavizado que sobre los datos :-(. Si debe interpolar, tenga cuidado de hacerlo bien (por ejemplo, krige después de realizar EDA y variografía) y solo interpola uno de los conjuntos de datos. Puedes comparar datos reales en un conjunto con los valores interpolados del otro, eliminando así la mitad del error de comparar dos mapas interpolados. Tenga en cuenta que la interpolación no es válida para muchos tipos de datos y el suavizado es inapropiado para otros tipos de datos.
whuber
Estoy de acuerdo en que este método no es adecuado para muchos tipos de datos de entrada. Creo que puede dar una buena primera impresión al analizar patrones de densidad de puntos.
oscuro
No tengo dudas de que tiene razón cuando la interpolación es realizada por un experto e interpretada juiciosamente.
whuber
2

Supongamos que ha revisado la literatura sobre la autocorrelación espacial. ArcGIS tiene varias herramientas de apuntar y hacer clic para hacer esto a través de scripts de Toolbox: Herramientas de estadísticas espaciales -> Análisis de patrones .

Podría trabajar hacia atrás: busque una herramienta y revise el algoritmo implementado para ver si se adapta a su escenario. Utilicé el índice de Moran en algún momento mientras investigaba la relación espacial en la aparición de minerales del suelo.

Erick
fuente
2

Puede ejecutar un análisis de correlación bivariado en muchos softwares estadísticos para determinar el nivel de correlación estadística entre las dos variables y el nivel de significación. Luego, podría hacer una copia de seguridad de sus hallazgos estadísticos mapeando una variable usando un esquema de cloroplasto, y la otra variable usando símbolos graduados. Una vez superpuesto, puede determinar qué áreas muestran relaciones espaciales alta / alta, alta / baja y baja / baja. Esta presentación tiene algunos buenos ejemplos.

También puede probar algunos softwares únicos de geovisualización. Realmente me gusta CommonGIS para este tipo de visualización. Puede seleccionar un vecindario (su ejemplo) y todas las estadísticas y parcelas útiles estarán disponibles de inmediato. Hace que el análisis de mapas de múltiples variables sea bastante fácil.

Michael Markieta
fuente
2
Estas son buenas ideas, pero noto que los ejemplos a los que se refiere son exitosos porque los atributos corresponden a conjuntos comunes de características. En la presente pregunta, las características tienen ubicaciones diferentes y esas ubicaciones son variables aleatorias (no unidades administrativas fijas, por ejemplo). Estas son complicaciones importantes, porque ahora necesitamos encontrar un procedimiento significativo para relacionar los valores en una ubicación con los de otras ubicaciones y debemos hacer frente al carácter aleatorio de las ubicaciones mismas.
whuber
Gracias por esa aclaración! Leí mal el OP y asumí que era para dos variables independientes que compartían una ubicación / extensión geográfica (como con DA / CT, etc.)
Michael Markieta
1

Un análisis cuadrático sería genial para esto. Es un enfoque SIG capaz de resaltar y comparar los patrones espaciales de diferentes capas de datos de puntos.

En http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf se puede encontrar un resumen de un análisis de cuadrante que cuantifica las relaciones espaciales entre capas de datos de múltiples puntos .


fuente
1
(1) El enlace es un 404 (por eso pedimos respuestas para incluir resúmenes de todos los enlaces). (2) ¿Con qué precisión un análisis de cuadrante compararía las distribuciones de dos puntos ?
whuber
(1) El enlace podría funcionar ahora. (2) Un análisis de cuadrante divide un área dada en unidades del mismo tamaño, del tamaño apropiado. Luego usa el análisis de probabilidad para determinar la frecuencia real de los puntos dentro de cada cuadrante versus un valor esperado para cada frecuencia. Usando el comando de densidad de puntos y las estadísticas zonales como herramientas de tabla en la extensión de analista espacial para ArcMap, podemos resaltar áreas cercanas a ubicaciones de puntos de alta densidad además de resumir estas clases de entidades de puntos para el análisis de regresión.
Usted ha descrito un procedimiento para el análisis univariado de distribuciones puntuales. Podría adaptarse (mediante la evaluación de las correlaciones del cuadrante) para comparar el grado de co-ocurrencia de los dos procesos, pero tiene dos limitaciones significativas. Primero, no estudia las relaciones entre los procesos en función de la distancia; segundo, al agrupar los puntos en cuadrantes pierde poder. Una pérdida de potencia significa que es posible que no pueda identificar patrones importantes o, de lo contrario, implica que necesita recopilar más datos para lograr los objetivos de la investigación.
whuber
He usado este "procedimiento" para el análisis multivariado de distribuciones puntuales. Si bien implica una pérdida de poder, también proporciona una manera de comparar visual y cuantitativamente las distribuciones de patrones de dos puntos en niveles únicos de agregación (una solución para la pregunta original aquí).
Espero que lo que lea en nuestro sitio lo inspire a considerar enfoques alternativos en el futuro: ampliarán su capacidad para aprovechar al máximo sus datos y los recursos de investigación limitados.
whuber