Modelo de regresión y autocorrelación espacial

15

He usado OLS y GWR para validar las dependencias entre dos bases de datos distintas. El cuadrado residual para GWR es 0.82 y, por lo tanto, es el modelo de regresión correcto que se utilizará para determinar la relación entre los dos conjuntos de datos.

Lo que quería saber es que GWR es regresión local y OLS es regresión global, ¿cuál debería usarse dónde y cuándo?

Además, ¿qué significa realmente si el I de Moran para el modelo GWR es aleatorio?

Sam007
fuente

Respuestas:

13

Cuáles son estos procedimientos

Aunque OLS y GWR comparten muchos aspectos de su formulación estadística, se usan para diferentes propósitos:

  • OLS modela formalmente una relación global de un tipo particular. En su forma más simple, cada registro (o caso) en el conjunto de datos consta de un valor, x, establecido por el experimentador (a menudo llamado "variable independiente") y otro valor, y, que se observa (la "variable dependiente" ) OLS supone que y es aproximadamenterelacionado con x de una manera particularmente simple: a saber, existen números (desconocidos) 'a' y 'b' para los cuales a + b * x será una buena estimación de y para todos los valores de x en los que el experimentador pueda estar interesado . "Buena estimación" reconoce que los valores de y pueden y variarán de cualquier predicción matemática porque (1) realmente lo hacen (la naturaleza rara vez es tan simple como una ecuación matemática) y (2) y se mide con alguna error. Además de estimar los valores de ayb, OLS también cuantifica la cantidad de variación en y. Esto le da a OLS la capacidad de establecer la significancia estadística de los parámetros ay b.

Aquí hay un ajuste de OLS:

ingrese la descripción de la imagen aquí

  • GWR se utiliza para explorar las relaciones locales . En esta configuración todavía hay (x, y) pares, pero ahora (1) típicamente, se observan ambos xey, ninguno de los dos puede ser determinado previamente por un experimentador, y (2) cada registro tiene una ubicación espacial, z . Para cualquier ubicación, z (no necesariamente una donde los datos están disponibles), GWR aplica el algoritmo OLS a los valores de datos vecinos para estimar una relación específica de ubicación entre y y x en la forma y = a (z) + b (z) *X. La notación "(z)" enfatiza que los coeficientes ayb varían entre las ubicaciones. Como tal, GWR es una versión especializada de suavizadores ponderados localmenteen el que solo se utilizan las coordenadas espaciales para determinar vecindarios. Su salida se utiliza para sugerir cómo los valores de x e y varían en una región espacial. Es de destacar que a menudo no hay razón para elegir cuál de 'x' e 'y' debería desempeñar el papel de variable independiente y variable dependiente en la ecuación, pero cuando cambia estos roles, ¡ los resultados cambiarán ! Esta es una de las muchas razones por las que GWR debe considerarse exploratorio, una ayuda visual y conceptual para comprender los datos, en lugar de un método formal.

Aquí hay una suavidad ponderada localmente. Observe cómo puede seguir los "meneos" aparentes en los datos, pero no pasa exactamente por cada punto. (Se puede hacer que pase por los puntos, o que siga movimientos más pequeños, cambiando una configuración en el procedimiento, exactamente como se puede hacer que GWR siga datos espaciales más o menos exactamente cambiando la configuración en su procedimiento).

Lowess

Intuitivamente, piense en OLS como una forma rígida (como una línea) en el diagrama de dispersión de pares (x, y) y GWR como permitiendo que esa forma se mueva arbitrariamente.

Elegir entre ellos

En el presente caso, aunque no está claro qué podrían significar "dos bases de datos distintas", parece que usar OLS o GWR para "validar" una relación entre ellos puede ser inapropiado. Por ejemplo, si las bases de datos representan observaciones independientes de la misma cantidad en el mismo conjunto de ubicaciones, entonces (1) OLS probablemente sea inapropiado porque tanto x (los valores en una base de datos) como y (los valores en la otra base de datos) deberían ser concebido como variable (en lugar de pensar en x como fijo y representado con precisión) y (2) GWR está bien para explorar la relación entre x e y, pero no puede usarse para validarcualquier cosa: está garantizado encontrar relaciones, no importa qué. Además, como se señaló anteriormente, los roles simétricos de "dos bases de datos" indican que cualquiera podría elegirse como 'x' y el otro como 'y', lo que lleva a dos posibles resultados de GWR que se garantiza que diferirán.

Aquí hay una suavidad ponderada localmente de los mismos datos, invirtiendo los roles de x e y. Compare esto con el gráfico anterior: observe cuán más pronunciado es el ajuste general y también cómo difiere en los detalles.

Lowess 2

Se requieren diferentes técnicas para establecer que dos bases de datos proporcionan la misma información, o para evaluar su sesgo relativo o precisión relativa. La elección de la técnica depende de las propiedades estadísticas de los datos y del propósito de la validación. Como ejemplo, las bases de datos de mediciones químicas se compararán típicamente usando técnicas de calibración .

Interpretando el yo de Moran

Es difícil decir qué significa un "Moran's I para el modelo GWR". Supongo que la estadística I de Moran puede haberse calculado para los residuos de un cálculo de GWR. (Los residuales son las diferencias entre los valores reales y ajustados). El I de Moran es una medida global de correlación espacial. Si es pequeño, sugiere que las variaciones entre los valores de y y los ajustes de GWR de los valores de x tienen poca o ninguna correlación espacial. Cuando GWR se "ajusta" a los datos (esto implica decidir qué constituye realmente un "vecino" de cualquier punto), es de esperar una baja correlación espacial en los residuales porque GWR (implícitamente) explota cualquier correlación espacial entre x e y valores en su algoritmo.

whuber
fuente
Entonces, en GWR, usted dijo que invertir las variables da resultados diferentes, pero el que da un cuadrado residual más alto, ¿no significa que muestra una relación más fuerte entre las dos?
Sam007
Sam, un cuadrado residual bajo en sí mismo no indica una relación más fuerte. En particular, cuando invierte los roles de x e y, ni siquiera puede comparar los cuadrados residuales, con frecuencia están en unidades diferentes. (Por ejemplo, uno podría ser una temperatura cuadrada y el otro podría ser una cantidad cuadrado de precipitaciones:? ¿Cómo saber cuál es el más bajo) Se puede siempre reducir un cuadrado residual mediante la inclusión de más parámetros en un modelo, incluso si no tienen sentido : ir demasiado lejos en esta dirección se llama "sobreajuste". En cierto sentido, GWR con un rango espacial corto es una forma de sobreajuste.
whuber
2
Quizás estés pensando en R-cuadrado, Sam: es una relación. (Entendí que "residual al cuadrado" es exactamente lo que dice: la suma de los cuadrados de los residuos. La mayoría del software de estadísticas informa esta estadística junto con los valores de R al cuadrado). Pero aún es peligroso, y generalmente incorrecto, comparar diferentes modelos (tales como y en términos de x versus x en términos de y) en términos de R cuadrado: ver stats.stackexchange.com/questions/13314 . Debido a que GWR es exploratorio, es ideal para encontrar patrones y establecer relaciones de hipótesis , pero (como se practica habitualmente, de todos modos) no es adecuado para justificar las afirmaciones.
whuber
1
WOW eso fue realmente todas las estadísticas. En realidad, la razón por la que me resulta difícil es porque tengo muy pocos antecedentes en estadísticas, por lo que me baso únicamente en los resultados de los modelos, sin entender lo que significan exactamente. La mayoría de las cosas en el R2, pasaron por mi cabeza. ¿Podría sugerir un buen libro para principiantes para que comience y construya mi base en estadísticas?
Sam007
3

Rsquared no debe usarse para comparar modelos. Utilice log likihood o valores AIC.

Si sus residuos en GWR son aleatorios, o supongo que parecen ser aleatorios (no estadísticamente sig.), Entonces podría tener un modelo específico. Al menos sugiere que no tiene residuos correlacionados y debe sugerir que no tiene ninguna variable omitida.

Rich H.
fuente