Cuando se trata de rásteres de diferentes resoluciones, ¿se debe volver a muestrear la resolución más alta o más baja?

16

Estoy buscando recomendaciones sobre las mejores prácticas para tratar con capas de datos ráster con diferentes resoluciones y proyecciones. El consejo que me han dado es que siempre vuelva a muestrear la capa con la resolución más baja antes de realizar cualquier análisis, pero esto me parece una gran pérdida de precisión y nunca me han dado una explicación sólida de por qué debería hacerse.

¿Cuándo es razonable volver a muestrear para que coincida con una cuadrícula de mayor resolución y cuáles son las implicaciones en comparación con el remuestreo a una resolución más baja?

Me doy cuenta de que esto es muy dependiente de la situación. Principalmente busco pautas generales, pero aquí está mi escenario específico para referencia:

Escenario: Estoy buscando construir un modelo de regresión espacial que prediga el uso de la tierra basado en una variedad de capas ambientales y socioeconómicas. Mi mapa de uso del suelo está derivado de Landsat y, por lo tanto, tiene una resolución de 30 m. Los ejemplos de capas explicativas incluyen el SRTM DEM (3 segundos de arco, ~ 90 m ) y las capas climáticas de Bioclim (30 segundos de arco, ~ 1 km).

Matt SM
fuente
1
¿Podría proporcionar más información sobre el modelo de regresión y el método de implementación? ¡+1 para una pregunta bien construida e interesante!
Aaron
Estoy comparando la cubierta forestal en dos puntos en el tiempo y estoy usando un modelo de regresión logística con probabilidad (binaria) de deforestación como respuesta. Lo implementaré en R.
Matt SM

Respuestas:

17

En realidad, no todo depende de esa situación y se trata de un error estadístico.

Cada vez que vuelve a muestrear a una resolución más alta, está introduciendo una precisión falsa. Considere un conjunto de datos medidos en pies solo con números enteros. Cualquier punto dado puede estar a +/- 0.5 pies de su ubicación real. Si vuelve a muestrear a la décima más cercana, ahora está diciendo que cualquier número dado no está a más de +/- 0.1 de su ubicación real. Sin embargo, sabe que sus mediciones originales no eran tan precisas y ahora está operando dentro del margen de error. Sin embargo, si va por el otro lado y vuelve a muestrear a la resolución más baja, sabrá que cualquier valor de punto dado es definitivamente preciso porque está contenido dentro del margen de error de la muestra más grande.

Fuera de las matemáticas estadísticas, el primer lugar que se me viene a la mente es la topografía. Las encuestas más antiguas solo especificaban los rodamientos hasta el medio minuto más cercano y las distancias hasta la décima de pie. Trazar un recorrido de límite con estas mediciones a menudo puede dar como resultado un cierre incorrecto (el punto inicial y el punto final deben ser los mismos pero no se miden) en pies. Las encuestas modernas van al menos al segundo y centésimo de pie más cercano. Los valores derivados (como el área de un lote) pueden verse afectados significativamente por la diferencia de precisión. El valor derivado en sí mismo también se puede dar como demasiado preciso.

En su caso de análisis, si vuelve a muestrear a la resolución más alta, sus resultados implicarán una precisión mucho mayor que los datos en los que se basan. Considere su SRTM a 90m. Por cualquier método que midan la elevación (promedio / máximo / retorno medio), la unidad más pequeña (píxel) que se puede diferenciar de sus vecinos es 90 m. Si vuelve a muestrear eso a 30 m, ya sea:

  • asume que los nueve píxeles resultantes tienen la misma elevación cuando en verdad tal vez solo uno, el centro o la esquina superior izquierda (¡o ninguno!)
  • interpola entre píxeles, creando valores derivados no presentes antes

Por lo tanto, en ambos casos introduce una precisión falsa porque sus nuevas submuestras no se midieron realmente.

Pregunta relacionada: ¿Qué prácticas están disponibles para modelar la idoneidad de la tierra?

Chris W
fuente
Eso ciertamente vale para los datos de puntos. Pero me pregunto si es diferente para los datos ráster que promedian una cantidad espacial continuamente variable donde hay precisión de ubicación y precisión de la cantidad medida. Además, diferentes cantidades tienen diferentes niveles de variación espacial. Por ejemplo, el remuestreo de datos de elevación a una resolución más alta debe introducir más errores en las zonas montañosas que en las praderas.
Matt SM
@MattSM Es cierto para todos los datos espaciales, y agravado por el error estadístico de la cantidad medida. Considere su SRTM a 90m. Por cualquier método que midan la elevación (promedio / máximo / retorno medio), la unidad más pequeña (píxel) que se puede diferenciar de sus vecinos es 90 m. Si vuelve a muestrear eso a 30 m, ahora está diciendo que los 9 píxeles resultantes tienen la misma elevación cuando, en verdad, tal vez solo uno (¡o ninguno!) Es el centro o la esquina superior izquierda. O interpolar entre píxeles, creando valores que no estaban presentes antes, por lo tanto, una precisión falsa. Y sí, el rango de valores juega con el error potencial.
Chris W
Como nota al margen, es posible interpolar características específicas en casos especiales donde el patrón es claramente limitado: una característica no geográfica que viene a la mente es reconstruir la información de la matrícula a partir de fotografías con una resolución demasiado baja para leer. Pero tiene que saber lo que está viendo. Recuerdo algunos casos en los que la reconstrucción de la matrícula falló porque la placa en cuestión estaba en una escritura no europea, como el árabe.
Steve Barnes
¿Qué pasa con los rásteres con resolución basada en arco, no tienen celdas de cuadrícula que podrían ser de diferentes áreas / relaciones de aspecto en diferentes áreas?
CMCDragonkai
@CMCDragonkai No estoy seguro de cómo abordar eso porque te estás metiendo en la representación de datos frente al formato y los sistemas / proyecciones de coordenadas. Sí, el área geográfica en un ráster no es necesariamente tan uniforme como los píxeles cuadrados (u otra relación de aspecto). Muchas especificaciones de datos satelitales le dirán esto (el píxel es x en el nadir e y en el borde de la franja). Pero los problemas de remuestreo aún se aplican, en todo caso, solo agravan el problema. (Y perdón por la demora, no he estado en SE en algún tiempo.)
Chris W