Número mínimo de muestras para la interpolación de kriging

19

Obtengo algunos datos con el número de muestras con una solicitud para interpolarlo usando el método kriging.
Después de cierta investigación, parece que los resultados de kriging (realizados en ArcGIS Geostatistical Analyst con parámetros predeterminados) no son satisfactorios. Los valores interpolados son muy diferentes de las mediciones (especialmente las superiores) y la superficie no parece confiable. Aquí está la imagen: ingrese la descripción de la imagen aquí
supongo que el problema principal es un número insuficiente de muestras.

¿Cuántos puntos debemos usar para obtener resultados confiables?
¿O tal vez el método kriging no es apropiado para valores tan diversos?

Marcin
fuente
Dijiste que "Aunque la gente ha logrado calcular tan solo siete puntos de datos (en una monografía de Robert Jernigan publicada por la EPA de EE. UU. A fines de la década de 1980) ...". Pero no puedo encontrar este artículo. ¿Puedes dar una dirección abierta para este artículo? Gracias ...
abilici

Respuestas:

30

Cuando usas "valores predeterminados", no estás realmente kriging, solo estás aplicando el algoritmo kriging, que como has encontrado, es deficiente cuando se usa con estos datos.

(Avanzaré en una caja de jabón para una breve queja: en mi opinión, la forma más rápida de obtener malos resultados con un programa de computadora es aceptar sus parámetros predeterminados. ArcGIS es uno de los entornos más ricos y poderosos para obtener malos resultados. manera. La moraleja es no usar software para un trabajo importante hasta que comprenda cómo controlarlo. Ahora, desde la caja de jabón ...)

Para que kriging funcione, debe realizar un análisis estadístico preliminar intensivo de los datos conocidos como "variografía". Lo bien que esto finalmente funcione depende de los datos, así como de sus habilidades geoestadísticas. (Se han escrito libros completos sobre variografía, incluida la Geoestadística de Minería seminal de Journel & Huijbregts y Variowin de Yvan Pannatier). Aunque las personas han logrado con éxito tan solo siete puntos de datos (en una monografía de Robert Jernigan publicada por la EPA de EE. UU. En el finales de la década de 1980), y en principio se puede corregir utilizando solo dos o tres puntos (lo he hecho para demostrar el algoritmo ), las reglas generales en la literatura varían de un mínimo de 20 puntos a 100 puntos y el consenso parece estar alrededor de 30 puntos.

En su caso, aunque no describe los datos, tiene algunos problemas claros, incluida una distribución muy sesgada y una clara falta de evidencia de estacionariedad. Estos requieren un tratamiento estadístico especial o formas especializadas de kriging (como un modelo lineal generalizado espacial). No obtendrá buenos resultados al crear dichos datos hasta que tenga una gran cantidad de datos.

La leyenda sugiere que podría estar intentando crear una cuadrícula de densidad en lugar de realmente interpolar datos: aunque los resultados de los dos procedimientos pueden tener el mismo aspecto, hacen cosas muy diferentes y tienen interpretaciones muy diferentes. Usted interpolar cuando los datos se consideran muestras de alguna superficie continua hipotético. La interpolación predice los valores no muestreados. Los ejemplos estándar incluyen mediciones de elevación (que muestrean la superficie de la tierra) y mediciones de temperatura (que muestrean un "campo de temperatura"). Calcula una densidad cuando tiene información completa sobre la cantidadde algo y desea representar una versión suavizada de esa cantidad por unidad de área. (En contraste con la interpolación, no existen valores no muestreados para predecir). El ejemplo estándar es una densidad de población: los datos son recuentos de todos los individuos dentro de un área; El resultado es un mapa de densidad de población.

whuber
fuente
66
Gran respuesta @whuber. Sin embargo, ¿el número mínimo de puntos tampoco depende parcialmente de la extensión del dominio espacial y del grano deseado de la predicción? Si lo destila a un problema de muestreo, entonces se trata de capturar la población y la variación espacial en la muestra.
Jeffrey Evans
@ Jeffrey Ese es en parte el caso. La cantidad de datos se relaciona con dos cosas: la varianza de predicción de kriging (que varía a través del dominio espacial) y la precisión con la que se puede estimar el variograma. Esto último a menudo se pasa por alto, especialmente en los tratamientos tradicionales de kriging: es una especie de elefante en la habitación. Si conoce el variograma correcto y tiene una pequeña relación pepita / umbral y un gran rango en relación con la extensión del dominio espacial, puede corregirlo con muy pocos datos, especialmente si muestrean adecuadamente el rango completo de valores de datos.
whuber
3
Estoy convencido de que cualquiera que use kriging debería necesitar un buen curso de geoestadística o tener una sólida formación en SIG / estadísticas. Aprender a modelar adecuadamente un semivariograma requiere cierta habilidad.
Mike T
1
La regla de oro que he pensado: 30 puntos para Kriging omnidireccional y 100 para bidireccional.
jareks
1

Hay dos preguntas separadas, primero el número de ubicaciones de datos para usar en la estimación / modelación del variograma y, en segundo lugar, el número de ubicaciones de datos para usar en las ecuaciones de kriging para interpolar el valor en una ubicación sin datos (o para estimar el valor promedio sobre una región). Suponiendo que esté utilizando un vecindario de búsqueda en movimiento, es probable que más de 15-20 ubicaciones de datos en el vecindario degraden los resultados porque (1) solo las ubicaciones de datos más cercanas en el vecindario de búsqueda tendrán pesos distintos de cero, (2) con más datos las ubicaciones del tamaño de la matriz a invertir es mayor y la posibilidad de una matriz mal acondicionada aumenta. La cantidad total de ubicaciones de datos necesarias para kriging depende de la cantidad de ubicaciones que se van a interpolar y de los patrones espaciales de esos puntos y también de las ubicaciones de datos. En breve,

Con respecto a la estimación / modelación del variograma, es un problema muy diferente, ver por ejemplo

1991, Myers, DE, sobre la estimación del variograma en los procedimientos del primer Inter. Conf. Stat. Comp., Cesme, Turquía,

30 de marzo al 2 de abril de 1987, Vol II, American Sciences Press, 261-281

1987, A. Warrick y DE Myers, Optimización de ubicaciones de muestreo para cálculos de variogramas Investigación de recursos hídricos 23, 496-500

Estos se pueden descargar en www.u.arizona.edu/~donaldm

Donald Myers
fuente