¿RandomForest ignora la independencia espacial?

8

Tengo 5 variables para cada país del mundo y necesito analizar sus efectos e interacciones en una variable independiente. Random Forest sería adecuado para mi alcance ya que trata con relaciones no lineales y predice la importancia de las variables. Sin embargo, me pregunto si la dependencia espacial puede ser un problema. Nunca he visto la dependencia espacial discutida en aplicaciones de RF, incluso si se ha utilizado ampliamente para datos espaciales.

Oritteropus
fuente

Respuestas:

8

No tiene ningún problema con la autocorrelación espacial de su respuesta o variables explicativas. Es una técnica totalmente no paramétrica. Lo he usado para la interpolación de variables de diversidad estructural en mi país basado en datos in situ de una cuadrícula regular y la introducción de las coordenadas como covariables incluso produce mejores predicciones. Esto se debe a que Random Forest se basa en un enfoque de dividir y conquistar (árboles de clasificación y regresión), lo que significa que separa su espacio de características en subconjuntos disjuntos donde los modelos más simples (por defecto, un promedio simple en el caso de regresión) pueden producir buenas predicciones. Introducir las coordenadas como variables, en mi caso, explota la autocorrelación espacial ya que tiene sentido que ciertos subconjuntos geográficos del país se comporten de manera homogénea.

JEquihua
fuente
Si bien tiendo a estar de acuerdo con la respuesta, ¿conoce algún estudio empírico que demuestre que este es el caso? RF definitivamente tiene problemas de puntuación de importancia wrt y variables altamente correlacionadas (por ejemplo, Strobl et al ).
Prophet60091
2
Esto tiene mucho sentido ya que cuando creces un árbol, en cada división, se debe decidir qué variable va a usar. En el caso extremo, si tiene dos variables perfectamente correlacionadas, el esquema de división simplemente elegiría una de ellas al azar. Por lo tanto, si vuelve a entrenar el bosque aleatorio, verá que los puntajes de importancia son muy inestables en estas variables correlacionadas. Serían muy propensos a cambiar de lugar en la jerarquía.
JEquihua
@JEquihua Sé que llego muy tarde a la fiesta, pero me interesaría saber cómo incorporaste las coordenadas como covariables. Estoy usando el paquete randomForest en R y no conozco ninguna opción para incluir covariables, pero tiene mucho sentido, especialmente con datos agrupados espacialmente autocorrelacionados.
Kristina
Hola @ Kristina Acabo de presentarlos como características adicionales, es decir, lat y lon como dos columnas diferentes en su tabla de trenes. Esto solo funciona si los datos de su tren representan bien su espacio geográfico, en mi ejemplo, tenía alrededor de 25,000 puntos ubicados en una cuadrícula regular sobre mi área de interés.
JEquihua
@JEquihua ¡Gracias por tu respuesta! Intenté esto antes, sin embargo, tuve la impresión de que esto sesgó mucho el modelo. Sin embargo, esto podría deberse al hecho de que tengo varias regiones independientes (áreas marinas protegidas en todo el mundo) en mis datos. ¿Tiene alguna sugerencia sobre la mejor manera de manejar esto ya que me gustaría incluir la ubicación? ¡Gracias!
Kristina