¿Cuál es una estadística apropiada para medir la autocorrelación espacial de puntos con valores binarios?

9

Estoy tratando de determinar el nivel de autocorrelación espacial en un conjunto de datos de puntos. El atributo que me interesa es binario (presencia / ausencia de una especie), para lo cual el I de Moran no es apropiado. Por otro lado, las estadísticas de recuento conjunto, que generalmente se recomiendan para datos binarios o categóricos, aparentemente no son apropiadas para datos de puntos. En resumen, la pregunta es así: ¿cuál es una estadística apropiada para medir la autocorrelación espacial global y / o local de puntos cuando el atributo de interés es binario?

usuario13706
fuente

Respuestas:

4

Su afirmación de que una estadística Join-Counts no es apropiada para datos binarios no es correcta. Es solo una cuestión de cómo se especifica la matriz de pesos espaciales (Wij). Como en un Morna's-I, no se puede usar una matriz de distancia en este tipo de análisis. Sin embargo, se puede calcular una matriz binaria de contingencia apropiada usando un límite de distancia. Puede crear este tipo de matriz de ponderaciones espaciales, así como realizar un análisis Join-Count en la biblioteca R spdep. Consulte las funciones "joincount.test" y joincount.mc (para la prueba de permutación de Monte Carlo).

Jeffrey Evans
fuente
Gracias Jeffrey Los recuentos conjuntos son claramente el camino a seguir para los datos binarios, pero vi una sugerencia (no recuerdo dónde, ahora) que los recuentos conjuntos solo eran apropiados para los datos de área (no de punto). Para mí no era evidente por qué no podía crear la matriz de pesos usando un umbral de distancia y usar un recuento conjunto, pero no pude encontrar ejemplos de esto en algunas búsquedas superficiales. ¿Hay alguna referencia que pueda proporcionar para este tipo de uso?
user13706
Este es un gran cuerpo de literatura sobre análisis de patrones de puntos. La estadística Join-Counts no se usa comúnmente y, como tal, no es muy frecuente en la literatura actual. Volvería a los primeros trabajos de Diggle o Geits. ¿Cuál es su objetivo al cuantificar la dependencia espacial en los datos binomiales? No puede usar un coeficiente Join-Counts en algo como efectos mixtos o modelo CAR / SAR. Aquí algunos antecedentes interesantes sobre la escala del patrón de ocupación ( en.wikipedia.org/wiki/Scaling_pattern_of_occupancy )
Jeffrey Evans el
1
RandomForest es un modelo no paramétrico y, como tal, no se ve afectado por la autocorrelación. La preocupación con este modelo es la correlación dentro del conjunto bootstrap. A menudo, la autocorrelación puede crear "redundancia" en sus datos que crea un sesgo en Bootstrap. Lo miraría según las distribuciones condicionales de sus covariables. Tengo el código R disponible "R - Trazar densidad de probabilidad por factor de agrupación" aquí: conserveonline.org/workspaces/emt/documents/all.html
Jeffrey Evans
1
Oh, no generalizaría que RF sea una caja completamente negra. De hecho, este no es el caso. Este modelo a menudo se denomina "caja gris". Dado que la autocorrelación influye principalmente en los supuestos de IID en los métodos frecuentistas, es una afirmación bastante segura de que los supuestos no paramétricos no se violan.
Jeffrey Evans el
1
Estamos generalizando las estadísticas "no paramétricas". Esto abarca muchos métodos. Si miras hacia atrás a las pruebas de Brieman de 2001, verás que RF no asume independencia. El libro de Hastie "Elementos del aprendizaje estadístico" proporciona una base estadística sólida para probar la teoría en relación con los métodos de aprendizaje automático. Como se indicó anteriormente, la preocupación es la correlación en el conjunto que ciertamente puede ser causada por pseudoreplicación / autocorrelación. Sin embargo, este no es un supuesto de modelo en RF. Sin embargo, si es lo suficientemente severo, el efecto neto de sesgo o sobreajuste es obviamente el mismo.
Jeffrey Evans
0

Los datos binarios son un caso de uso normal para la autocorrelación espacial. Creo que la mayoría del libro de análisis espacial hablará de ello. Este documento puede ser de ayuda.

mfdev
fuente
1
La primera página de su referencia enfatiza que "las ubicaciones de datos son regiones ", por lo que parece que no se aplica a los datos de puntos en absoluto.
whuber