¿Qué causa un patrón en forma de U en el correlograma espacial?

12

He notado en mi propio trabajo este patrón al examinar un correlograma espacial a diferentes distancias, emerge un patrón en forma de U en las correlaciones. Más específicamente, las fuertes correlaciones positivas en contenedores de pequeña distancia disminuyen con la distancia, luego alcanzan un pozo en un punto particular y luego vuelven a subir.

Aquí hay un ejemplo del blog Conservation Ecology, Macroecology playground (3) - Autocorrelación espacial .

I Correlograma de Moran

Estas auto correlaciones positivas más fuertes a distancias más grandes violan teóricamente la primera ley de geografía de Tobler, por lo que esperaría que fuera causada por algún otro patrón en los datos. Esperaría que lleguen a cero a una cierta distancia y luego se sitúen alrededor de 0 a distancias más largas (que es lo que generalmente ocurre en los gráficos de series de tiempo con un orden AR o MA de bajo orden).

Si realiza una búsqueda de imágenes en Google , puede encontrar algunos otros ejemplos de este mismo tipo de patrón (consulte aquí para ver otro ejemplo). Un usuario en el sitio SIG ha publicado dos ejemplos en los que el patrón aparece para Moran's I pero no aparece para Geary's C ( 1 , 2 ). En conjunto con mi propio trabajo, estos patrones son observables para los datos originales, pero cuando se ajusta un modelo con términos espaciales y se verifican los residuos, no parecen persistir.

No he encontrado ejemplos en el análisis de series de tiempo que muestren un gráfico ACF de aspecto similar, por lo que no estoy seguro de qué patrón en los datos originales causaría esto. Scortchi en este comentario especula que un patrón sinusoidal puede ser causado por un patrón estacional omitido en esa serie de tiempo. ¿Podría el mismo tipo de tendencia espacial causar este patrón en un correlograma espacial? ¿O es algún otro artefacto de la forma en que se calculan las correlaciones?


Aquí hay un ejemplo de mi trabajo. La muestra es bastante grande, y las líneas grises claras son un conjunto de 19 permutaciones de los datos originales para generar una distribución de referencia (por lo que se puede ver que la variación en la línea roja es bastante pequeña). Entonces, aunque la trama no es tan dramática como la primera que se muestra, el pozo y luego se elevan a mayores distancias aparecen con bastante facilidad en la trama. (También tenga en cuenta que el pozo en el mío no es negativo, como lo son los otros ejemplos, si eso materialmente hace que los ejemplos sean diferentes, no lo sé).

ingrese la descripción de la imagen aquí

Aquí hay un mapa de densidad del núcleo de los datos para ver la distribución espacial que produjo dicho correlograma.

Crimen de KDE en DC

Andy W
fuente
1
I
Puedo ver de dónde viene eso @ user777, aunque podría esperar un argumento similar que haría que la trama se tendenciara a 0 a medida que el vecindario espacial se agranda asintóticamente. Es decir, a medida que el vecindario crezca, la media del vecindario estará más cerca de la gran media. En mi cabeza (creo) eso haría que la correlación fuera cero, aunque no una, pero podría estar equivocado fácilmente. (El mismo argumento debería aplicarse también a las series de tiempo, y no recuerdo haber visto tramas de ACF para series de tiempo que se vean así).
Andy W
El kde de DC me recuerda un poco a un tablero de ajedrez. ¿Cómo sería la trama de autocorrelación espacial de un tablero de ajedrez? Me pregunto si no sería alto a distancias cortas (mismo cuadrado), bajo un poco más lejos (cuadrado diferente), y luego nuevamente más alto. Sin embargo, no sé lo suficiente sobre este tema para saber si esa es la respuesta.
gung - Restablece a Monica
@gung, depende de cómo se formule la distancia en ese caso. Para un tablero de ajedrez con contigüidad de reina sería sinónimo de un término autorregresivo negativo, que para una serie de tiempo haría que un gráfico ACF sea alternativo entre correlaciones positivas y negativas (y la onda se amortiguaría, probablemente muy rápidamente en ese caso ) Sin embargo, es más complicado en el análisis espacial que en las series de tiempo. Sin embargo, no caracterizaría este patrón como un tablero de ajedrez.
Andy W
2
Su conjunto de datos realmente no tiene suficiente cobertura espacial que debería estimar las autocovarianzas a una distancia de 5 kilómetros (toda el área no tiene más de 10 kilómetros de ancho y generalmente desea tener un conjunto de datos que cubra muchas veces longitud de correlación.) Me parece que tienes básicamente tres "gotas" de alta delincuencia en aproximadamente una forma triangular, con las gotas a unos 5K de distancia entre sí y espacios intermedios. Por lo tanto, no es sorprendente ver una correlación positiva a esa longitud.
Brian Borchers

Respuestas:

4

Explicación

Un correlograma en forma de U es una ocurrencia común cuando su cálculo se lleva a cabo en toda la extensión de la región en la que ocurre un fenómeno. Aparece particularmente con fenómenos similares a la pluma en la naturaleza, como la contaminación localizada en suelos o aguas subterráneas o, como en este caso, donde el fenómeno está asociado con una densidad de población que generalmente disminuye hacia el límite del área de estudio (el Distrito de Columbia, que tiene un núcleo urbano de alta densidad y está rodeado de suburbios de baja densidad).

Recuerde que el correlograma resume el grado de similitud de todos los datos de acuerdo con su cantidad de separación espacial. Los valores más altos son más similares, los valores más bajos son menos similares. Los únicos pares de puntos en los que se puede lograr la mayor separación espacial son los que se encuentran en lados diametralmente opuestos del mapa. Por lo tanto, el correlograma está comparando valores a lo largo del límite entre sí. Cuando los valores de los datos tienden a disminuir en general hacia el límite, el correlograma solo puede comparar valores pequeños con valores pequeños. Es probable que los encuentre muy similares.

Por lo tanto, para cualquier fenómeno similar a un penacho u otro fenómeno espacialmente unimodal, podemos anticipar antes de recopilar los datos que el correlograma probablemente disminuirá hasta alcanzar aproximadamente la mitad del diámetro de la región y luego comenzará a aumentar.

Un efecto secundario: la variabilidad de la estimación.

Un efecto secundario es que hay más pares de puntos de datos disponibles para estimar el correlograma a distancias cortas que a distancias más largas. A distancias medias a largas, las "poblaciones de retraso" de tales pares de puntos disminuyen. Esto aumenta la variabilidad del correlograma empírico. Algunas veces esta variabilidad por sí sola creará patrones inusuales en el correlograma. Evidentemente, se usó un gran conjunto de datos en la figura superior ("Moran's I"), lo que reduce este efecto, pero no obstante, el aumento en la variabilidad es evidente en las amplitudes más grandes de las fluctuaciones locales en el gráfico a distancias más allá de 3500 aproximadamente: exactamente la mitad del distancia máxima

Por lo tanto, una regla general de larga data en las estadísticas espaciales es evitar calcular el correlograma a distancias superiores a la mitad del diámetro del área de estudio y evitar el uso de distancias tan grandes para la predicción (como la interpolación).

¿Por qué la periodicidad espacial no es la respuesta completa?

La literatura sobre estadísticas espaciales de hecho señala que los patrones espaciales periódicos pueden causar un rebote en el correlograma a distancias más grandes. Los geólogos mineros llaman a esto el "efecto agujero". Existe una clase de variogramas que incorporan un término sinusoidal para modelarlo. Sin embargo, todos estos variogramas imponen también una fuerte disminución con la distancia y, por lo tanto, no pueden explicar el retorno extremo a la correlación completa que se muestra en la primera figura. Además, en dos o más dimensiones es imposible que un fenómeno sea tanto isotrópico (en el que los correlogramas direccionales son todos iguales) como periódico. Por lo tanto, la periodicidad de los datos por sí sola no tendrá en cuenta lo que se muestra.

Qué se puede hacer

La forma correcta de proceder en tales circunstancias es aceptar que el fenómeno no es estacionario y adoptar un modelo que lo describa en términos de alguna forma determinista subyacente , una "deriva" o "tendencia", con fluctuaciones adicionales alrededor de esa deriva. que puede tener autocorrelación espacial (y temporal). Otro enfoque de los datos, como los recuentos de delitos, es estudiar una variable relacionada diferente, como el delito por unidad de población.

whuber
fuente
Gracias, ¿cree que se requiere una ponderación ad-hoc para los efectos de borde? (Eso puede ser excesivo para el análisis exploratorio de los residuos del modelo.) Mi tesis doctoral En realidad estoy usando deriva espacial no lineal y términos de tendencia: el crimen por unidad de población es molesto por múltiples razones. La población residencial no es realmente la línea de base de interés, es más como caminar por la población. Las áreas del centro de la ciudad pueden aumentar mucho (20 ~ 30 veces) durante ciertas horas y están más relacionadas con instituciones no residenciales (trabajo y entretenimiento).
Andy W
Tienes muchas opciones, Andy, porque no hay forma de identificar un modelo único: debes decidir dónde quieres dejar de modelar los valores en términos de una deriva espacial y comenzar a modelarlos (o más bien, sus residuos) con Un modelo espacial estocástico. El correlograma en forma de U puede entenderse como una fuerte indicación de que se necesita algún mecanismo para modelar la deriva. La normalización por parte de una población relevante (incluso si solo puede estimarse en términos generales) es un método disponible para usted. Incluir medidas de población (o uso, etc.) como covariables es otra.
whuber
Me he acercado utilizando solo un amplio conjunto de medidas de actividad del uso del suelo (bares, estaciones de servicio, hospitales, escuelas, etc.) más los términos espaciales. Aquí está el mapa de las predicciones que mantienen constantes esas otras covariables . Sin embargo, todavía hay un poco de autocorrelación residual. Soy escéptico dado el error de cuánto ayudará el mapeo dasimétrico de la población a lugares pequeños, pero imagino que eventualmente emprenderé ese análisis.
Andy W
Ese es un enfoque basado en principios: deje que la teoría guíe el desarrollo del componente de deriva del modelo y luego evalúe los residuos para decidir si valdría la pena modelar su autocorrelación espacial. En muchos casos, la mayoría de las relaciones espaciales aparentes se explican adecuadamente por términos de deriva y es raro que se necesite la maquinaria geoestadística completa. Un aspecto intrigante de su problema es que la métrica subyacente (distancia espacial) posiblemente debería ser el tiempo de viaje o la distancia de viaje a lo largo de la red de calles en lugar de la distancia euclidiana.
whuber