He producido modelos aditivos generalizados para la deforestación. Para tener en cuenta la autocorrelación espacial, he incluido la latitud y la longitud como un término de interacción suavizado (es decir, s (x, y)).
He basado esto en la lectura de muchos artículos en los que los autores dicen "para tener en cuenta la autocorrelación espacial, las coordenadas de los puntos se incluyeron como términos suavizados", pero nunca han explicado por qué esto realmente lo explica. Es bastante frustrante. He leído todos los libros que puedo encontrar sobre GAM con la esperanza de encontrar una respuesta, pero la mayoría (por ejemplo, modelos aditivos generalizados, una introducción con R, SN Wood) simplemente tocan el tema sin explicarlo.
Realmente agradecería que alguien pudiera explicar POR QUÉ la inclusión de la latitud y la longitud explican la autocorrelación espacial, y lo que realmente significa 'contabilizar': es simplemente suficiente incluirlo en el modelo, o si se compara un modelo con s (x, y) en y un modelo sin? ¿Y la desviación explicada por el término indica el alcance de la autocorrelación espacial?
Respuestas:
El problema principal en cualquier modelo estadístico son los supuestos que subyacen a cualquier procedimiento de inferencia. En el tipo de modelo que describe, los residuos se suponen independientes. Si tienen alguna dependencia espacial y esto no está modelado en la parte sytematic del modelo, los residuos de ese modelo también exhibirán dependencia espacial, o en otras palabras, estarán autocorrelacionados espacialmente. Dicha dependencia invalidaría la teoría que produce valores p a partir de estadísticas de prueba en el GAM, por ejemplo; no puede confiar en los valores p porque se calcularon suponiendo independencia.
Tiene dos opciones principales para manejar dichos datos; i) modelar la dependencia espacial en la parte sistemática del modelo, o ii) relajar el supuesto de independencia y estimar la correlación entre los residuos.
i) es lo que se está intentando al incluir una suavidad de las ubicaciones espaciales en el modelo. ii) requiere la estimación de la matriz de correlación de los residuos a menudo durante el ajuste del modelo utilizando un procedimiento como mínimos cuadrados generalizados. Lo bien que cualquiera de estos enfoques aborde la dependencia espacial dependerá de la naturaleza y complejidad de la dependencia espacial y de cuán fácilmente se pueda modelar.
En resumen, si puede modelar la dependencia espacial entre observaciones, es más probable que los residuos sean variables aleatorias independientes y, por lo tanto, no violen los supuestos de ningún procedimiento inferencial.
fuente
"Autocorrelación espacial" significa varias cosas para varias personas. Sin embargo, un concepto general es que un fenómeno observado en ubicaciones puede depender de manera definida de (a) covariables, (b) ubicación y (c) sus valores en ubicaciones cercanas . (Donde las definiciones técnicas varían se encuentran en el tipo de datos que se están considerando, qué "forma definida" se postula y qué significa "cercano": todos estos deben hacerse cuantitativos para poder proceder).z
Para ver lo que podría estar pasando, consideremos un ejemplo simple de un modelo espacial para describir la topografía de una región. Deje que la elevación medida en un punto sea . Un posible modelo es que depende de alguna manera matemática definida de las coordenadas de , que escribiré en esta situación bidimensional. Dejando que represente desviaciones (hipotéticamente independientes) entre las observaciones y el modelo (que, como de costumbre, se supone que tienen cero expectativas), podemos escribirz y(z) y z (z1,z2) ε
para un modelo de tendencia lineal . La tendencia lineal (representada por los y ) es una forma de capturar la idea de que los valores cercanos e , para cierran to , debería tender a estar cerca el uno del otro. Incluso podemos calcular esto considerando el valor esperado del tamaño de la diferencia entre e , . Resulta que las matemáticas son muchoβ1 β2 y(z) y(z′) z z′ y(z) y(z′) E[|y(z)−y(z′)|] más simple si usamos una medida de diferencia ligeramente diferente: en su lugar, calculamos la diferencia al cuadrado esperada :
Este modelo no tiene ninguna autocorrelación espacial explícita, porque no contiene ningún término que relacione directamente con valores cercanos .y(z) y(z′)
Un modelo alternativo, diferente, ignora la tendencia lineal y supone solo que hay autocorrelación. Una forma de hacerlo es a través de la estructura de las desviaciones . Podríamos postular queε(z)
y, para tener en cuenta nuestra anticipación de correlación, asumiremos algún tipo de "estructura de covarianza" para el . Para que esto sea espacialmente significativo, asumiremos la covarianza entre y , igual a porque el tiene cero medios, tiende a disminuir a medida que y vuelven cada vez más distantes. Debido a que los detalles no importan, llamemos a esta covarianza . Esto es autocorrelación espacial.ε ε(z) ε(z′) E[ε(z)ε(z′)] ε z z′ C(z,z′) De hecho, la correlación (habitual de Pearson) entre e esy(z) y(z′)
En esta notación, la diferencia al cuadrado anterior esperada de 's para el primer modelo esy
(suponiendo ) porque se ha asumido que el en diferentes ubicaciones es independiente. He escrito lugar de para indicar que esta es la función de covarianza para el primer modelo.z≠z′ ε C1 C
Cuando las covarianzas del no varían dramáticamente de un lugar a otro (de hecho, generalmente se supone que son constantes), esta ecuación muestra que la diferencia al cuadrado esperada en 's aumenta cuadráticamente con la separación entre y . La cantidad real de aumento está determinada por los coeficientes de tendencia y .ε y z z′ β0 β1
Veamos cuáles son las diferencias cuadradas esperadas en las para el nuevo modelo, modelo 2:y
Nuevamente, esto se comporta de la manera correcta: debido a que pensamos que debería disminuir a medida que y se separen más, la diferencia al cuadrado esperada en hecho, aumenta con la separación creciente de las ubicaciones.C2(z,z′) z z′ y
La comparación de las dos expresiones para en los dos modelos nos muestra que en el primer modelo juega un papel matemáticamente idéntico a en el segundo modelo. (Hay una constante aditiva al acecho allí, enterrada en los diferentes significados de , pero no importa en este análisis.) Ergo , dependiendo del modelo, correlación espacial normalmente se representa como una combinación de una tendencia y una estructura de correlación estipulada en errores aleatorios.( β 1 ( z 1 - z ′ 1 ) + β 2 ( z 2 - z 2 ) ′ ) 2 - 2 C 2 ( z , z ′ ) C i ( z , z )E[(y(z)−y(z′))2] (β1(z1−z′1)+β2(z2−z2)′)2 −2C2(z,z′) Ci(z,z)
Ahora tenemos, espero, una respuesta clara a la pregunta: uno puede representar la idea detrás de la Ley de Geografía de Tobler ("todo está relacionado con todo lo demás, pero las cosas más cercanas están más relacionadas") de diferentes maneras. En algunos modelos, la Ley de Tobler se representa adecuadamente mediante la inclusión de tendencias (o términos de "deriva") que son funciones de coordenadas espaciales como la longitud y la latitud. En otros, la Ley de Tobler se captura mediante una estructura de covarianza no trivial entre términos aleatorios aditivos (elε ) En la práctica, los modelos incorporan ambos métodos. El que elija dependerá de lo que desee lograr con el modelo y de su visión de cómo surge la autocorrelación espacial, ya sea que esté implícita en las tendencias subyacentes o refleje variaciones que desea considerar al azar. Ninguno de los dos siempre tiene la razón y, en cualquier problema dado, a menudo es posible usar ambos tipos de modelos para analizar los datos, comprender el fenómeno y predecir sus valores en otros lugares (interpolación).
fuente
Las otras respuestas son buenas. Solo quería agregar algo sobre la 'autocorrelación espacial' contable '. A veces, esta afirmación se hace con más fuerza en la línea de "explicar la autocorrelación espacial no explicada por las covariables".
Esto puede presentar una imagen engañosa de lo que hace la suavidad espacial. No es como si hubiera una cola ordenada en la probabilidad de que el paciente espere pacientemente a que las covariables vayan primero y luego el líquido eliminará las partes 'inexplicables'. En realidad, todos tienen la oportunidad de explicar los datos.
Este documento con un título acertadamente presentado presenta el problema muy claramente, aunque es desde el punto de vista de un modelo CAR que los principios se aplican a los suavizados GAM.
Agregar errores correlacionados espacialmente puede estropear el efecto fijo que amas
La 'solución' en el papel es suavizar los residuos en lugar de suavizar el espacio. Eso tendría el efecto de permitir que sus covariables expliquen lo que pueden. Por supuesto, hay muchas aplicaciones en las que esto no sería una solución deseable.
fuente
La correlación espacial es simplemente cómo las coordenadas xey se relacionan con la magnitud de la superficie resultante en el espacio. Por lo tanto, la autocorrelación entre las coordenadas se puede expresar en términos de una relación funcional entre los puntos vecinos.
fuente