Nuevas formas de completar los valores faltantes en un ráster

8

Estoy buscando formas sólidas de completar los valores faltantes en algunos rásteres. Todos tienen una sola capa. Los valores faltantes consisten en píxeles individuales a parches de tamaño mediano. Los rásteres tienen un tamaño de alrededor de 1000 x 1000 píxeles y los parches más grandes son como 20x20 píxeles.

Estoy tentado a usar aregImpute en el paquete Hmisc R. ¿Alguien lo ha usado para este propósito?

Este enfoque parece muy bueno, pero creo que solo está destinado a producir correcciones estéticamente agradables.

Explicación detallada de esto:

Todos los rásteres (tengo 36 en total) comparten la misma extensión, se superponen y están alineados. Cada ráster es una variable diferente, reuní variables de varias fuentes (teledetección, topográfica y climatológica). Los rásteres originales vienen en varias resoluciones. El más pequeño es de 30m. A partir de ahí, llegan a 1 km. Remuestreé todo usando convolución cúbica (todas las variables son continuas) a 1 km. Tengo otro ráster de 1 km donde tengo datos de una variable de interés para algunos puntos muestreados. Así que entrené un modelo usando esos puntos y los otros rásteres como covariables para poder generar un ráster completo de esa variable. Desafortunadamente, la mayoría de los rásteres covariables tienen algunos valores faltantes, en realidad no mucho, pero me gustaría eliminar el problema por completo.

Gracias.

PD: Preferiría usar R para esto.

JEquihua
fuente
¿Cuál es la razón de la falta y por qué está completando los valores? (Ambas cosas son importantes en la selección de una solución adecuada). ¿Qué quiere decir exactamente con "robusto"? (Tiene un sentido estadístico técnico, pero aún no es evidente cómo se aplicaría aquí.)
whuber
Estoy usando las capas como covariables para un modelo predictivo. El modelo que estoy usando no maneja los valores faltantes, por lo que simplemente no calcula los píxeles con un valor faltante en ninguno de los rásteres, dejando agujeros en mi "capa predicha". Tal vez la palabra robusta fue mal utilizada, me disculpo. Lo que estaría buscando es que la imputación conserva la relación subyacente entre mis covariables y mi variable objetivo. No estoy seguro de cómo llamar a esto, la suposición múltiple?
JEquihua
Dependiendo de la variable, la falla es causada por la falla del sensor o el error de medición reemplazado por un valor faltante.
JEquihua
¿Tus rásteres se superponen o no? Si no se superponen, o si la cantidad típica de superposición es solo dos o tres rásteres en cualquier punto, entonces sería difícil obtener mucho valor aregImpute. De lo contrario, ese es un enfoque prometedor que sería aún más atractivo si incluyera términos de correlación espacial en el modelo.
whuber
1
Los datos que faltan debido a problemas de detección siempre están correlacionados espacialmente. Sospecho que cualquier método razonable que explique esta correlación, sin importar cuán simple sea, funcionaría mejor que incluso los métodos más sofisticados que descuidan esa correlación. El remuestreo podría ser un problema, pero no está claro lo que ha hecho. Una explicación más detallada en su pregunta sería bienvenida. (Un buen principio general es realizar sus análisis estadísticos con datos originales en lugar de datos muestreados si es posible, para evitar artefactos del remuestreo.)
whuber

Respuestas:

5

Soy el autor del paquete R gapfill, que es una herramienta flexible para predecir valores perdidos en conjuntos de datos de percepción remota espacio-temporales. https://CRAN.R-project.org/package=gapfill Podría ser útil en su caso.

Para obtener una descripción general de los métodos publicados para predecir los valores faltantes en los conjuntos de datos de detección remota, consulte la Tabla 1 de la publicación correspondiente https://doi.org/10.1109/TGRS.2017.2785240 .

Florian
fuente
1
Paquete interesante ¡Buen trabajo!
aldo_tapia