Alternativas robustas a la I de Moran

La I de Moran , una medida de autocorrelación espacial, no es una estadística particularmente sólida (puede ser sensible a distribuciones sesgadas de los atributos de datos espaciales).

¿Cuáles son algunas técnicas más robustas para medir la autocorrelación espacial? Estoy particularmente interesado en soluciones que están fácilmente disponibles / implementables en un lenguaje de secuencias de comandos como R. Si las soluciones se aplican a circunstancias únicas / distribuciones de datos, especifíquelas en su respuesta.

EDITAR : estoy ampliando la pregunta con algunos ejemplos (en respuesta a comentarios / respuestas a la pregunta original)

Se ha sugerido que las técnicas de permutación (donde se genera una distribución de muestreo Moran's I usando un procedimiento de Monte Carlo) ofrecen una solución sólida. Tengo entendido que dicha prueba elimina la necesidad de hacer suposiciones sobre la distribución I de Moran (dado que el estadístico de la prueba puede verse influenciado por la estructura espacial del conjunto de datos) pero no veo cómo la técnica de permutación se corrige de manera no normal Datos de atributos distribuidos . Ofrezco dos ejemplos: uno que demuestra la influencia de datos sesgados en la estadística I local de Moran, el otro en la I global de Moran, incluso bajo pruebas de permutación.

Usaré Zhang et al. 's (2008) analiza como el primer ejemplo. En su artículo, muestran la influencia de la distribución de datos de atributos en el Moran's I local usando pruebas de permutación (9999 simulaciones). He reproducido los resultados del punto de acceso de los autores para las concentraciones de plomo (Pb) (a un nivel de confianza del 5%) utilizando los datos originales (panel izquierdo) y una transformación logarítmica de esos mismos datos (panel derecho) en GeoDa. También se presentan diagramas de caja de las concentraciones de Pb originales y transformadas en log. Aquí, el número de puntos calientes significativos casi se duplica cuando se transforman los datos; Este ejemplo muestra que la estadística local es sensible a la distribución de datos de atributos, ¡incluso cuando se utilizan técnicas de Monte Carlo!

ingrese la descripción de la imagen aquí

El segundo ejemplo (datos simulados) demuestra la influencia que los datos sesgados pueden tener en la Moran's I global , incluso cuando se usan pruebas de permutación. Un ejemplo, en R , sigue:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Tenga en cuenta la diferencia en los valores de P. Los datos asimétricos indican que no hay agrupación a un nivel de significancia del 5% (p = 0.167) mientras que los datos distribuidos normalmente indican que sí existe (p = 0.013).

Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Uso de Moran's I y GIS locales para identificar puntos críticos de contaminación de Pb en suelos urbanos de Galway, Irlanda, Science of The Total Environment, Volumen 398, Temas 1-3, 15 de julio de 2008 , Páginas 212-221

algorithm r spatial-statistics MannyG
fuente

¿Tiene una referencia para la sensibilidad a las distribuciones sesgadas)? ¿Le interesan las pruebas globales de distribución espacial no aleatoria o la identificación de características anormales locales? ¿Cuál es la distribución del resultado de interés (variable de conteo positivo?)

Andy W

AndyW: 1) Una referencia a la sensibilidad de la prueba es el 'Análisis espacial, una guía para ecologistas' de Fortin y Dale (p. 125), 2) Estoy interesado en soluciones para las pruebas globales y locales, 3) No tengo ninguna especificación específica. distribución de datos en mente.

MannyG

Andy, debido a que el I de Moran se basa en estimaciones de varianza y covarianza ponderadas, tendrá la misma sensibilidad a los valores atípicos que esas estimaciones, lo que (como es bien sabido) es considerable. Esta idea también señala el camino hacia muchas posibles soluciones al problema de Manny: sustituya sus versiones robustas favoritas de estimaciones de dispersión y asociación para formar una correlación ponderada robusta y estará listo.

whuber

Parece que puedes estar combinando varios conceptos aquí, @Andy. Primero, Manny quiere medir la autocorrelación; él no está necesariamente llevando a cabo una prueba de hipótesis. En segundo lugar, la cuestión con la prueba de hipótesis se enmarca mejor en términos de poder que de robustez. Pero (tercero) los conceptos tienen una conexión: una estadística de prueba robusta tenderá a mantener su poder bajo una amplia gama de violaciones de supuestos de distribución (como la contaminación por valores atípicos), mientras que una estadística de prueba no robusta puede perder la mayor parte o la totalidad su poder en esas situaciones.

whuber

@ FC84, revisé este problema el año pasado y escribí una solución propuesta. Pero necesita ser examinado. Planeo ofrecer una versión (mucho) reducida de ese artículo como respuesta aquí en algún momento. Siéntase libre de obtener lo que pueda de lo que tengo. ¡Pero úsalo con precaución!

MannyG

(Esto es demasiado difícil de manejar en este punto para convertirlo en un comentario)

Esto se refiere a las pruebas locales y globales (no es una medida específica, independiente de la muestra de autocorrelación). Puedo apreciar que la medida específica de Moran I es una estimación sesgada de la correlación (interpretándola en los mismos términos que el coeficiente de correlación de Pearson), todavía no veo cómo la prueba de hipótesis de permutación es sensible a la distribución original de la variable ( ya sea en términos de errores tipo 1 o tipo 2).

Adaptando ligeramente el código que proporcionó en el comentario ( colqueenfaltaban los pesos espaciales );

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Cuando uno realiza pruebas de permutación (en este caso, me gusta pensar que es un revoltijo de espacio), la prueba de hipótesis de la autocorrelación espacial global no debe verse afectada por la distribución de la variable, ya que la distribución de prueba simulada cambiará esencialmente con la distribución de las variables originales. Probablemente se podrían producir simulaciones más interesantes para demostrar esto, pero como puede ver en este ejemplo, las estadísticas de prueba observadas están muy fuera de la distribución generada tanto para el original PLUMBcomo para el registrado PLUMB(que está mucho más cerca de una distribución normal) . Aunque puede ver la distribución de prueba PLUMB registrada bajo los cambios nulos más cerca de la simetría sobre 0.

ingrese la descripción de la imagen aquí

De todos modos, iba a sugerir esto como una alternativa, transformando la distribución para que sea aproximadamente normal. También iba a sugerir buscar recursos en el filtrado espacial (y de manera similar las estadísticas locales y globales de Getis-Ord), aunque tampoco estoy seguro de que esto ayude con una medida libre de escala (pero tal vez pueda ser fructífero para las pruebas de hipótesis) . Volveré a publicar más tarde con potencialmente más literatura de interés.

Andy W
fuente

Gracias Andy por tu cuenta detallada. Si lo entiendo correctamente, implica que en una prueba de permutación el estadístico de prueba (Moran's I) no cambiará en relación con la distribución de MC resultante, pero esto no está de acuerdo con mis observaciones. Por ejemplo, si usamos la variable HOVAL en el mismo conjunto de datos de columbus, el valor p de la prueba I de MC Moran resultante va de 0.029 (con los datos sesgados originales) a 0.004 (con los datos transformados logarítmicos) que indica una brecha cada vez mayor entre el MC distribución y estadística de prueba: no es insignificante si hubiéramos establecido el umbral en 1%.

MannyG

Sí, estás interpretando mi punto correctamente. Es ciertamente posible encontrar cualquier ejecución particular en la que los resultados difieran. La pregunta es si las tasas de error son las mismas en diversas circunstancias.

Andy W

Alternativas robustas a la I de Moran

Respuestas: