¿Cómo cuadricular datos categóricos muestreados de manera desigual?

10

Estoy buscando un método para cuadricular datos categóricos. Extraje de cartas náuticas y hojas de campo una colección de puntos que especifican la naturaleza de la superficie del fondo del océano. Estos datos son categóricos en lugar de numéricos y no se toman muestras de forma regular ni aleatoria. Las cartas náuticas se crean para ayudar en la navegación y el anclaje; no se crean para mapear el hábitat. Como tal, se hacen más sondeos cerca de la costa donde las profundidades relativamente poco profundas pueden representar un peligro para la navegación y donde los barcos tienden a anclar. Más allá de la costa, donde las profundidades son más que adecuadas para la navegación y el anclaje no es práctico, los sondeos se realizan con mucha menos frecuencia.

¿Alguien más ha intentado crear mapas de sustrato cuadriculados a partir de cartas náuticas?

Miré los polígonos de Thiessen (Vornoi), pero la concentración de los sondeos a lo largo de las costas conduce a un fino 'panal' a lo largo de la costa, grandes polígonos en alta mar y entre largos polígonos en forma de pastel que se extienden hacia la costa. La cuadrícula con el vecino más cercano produce prácticamente el mismo resultado.

Necesito una forma de limitar la influencia de los puntos poco profundos y cercanos a la costa, una forma de limitar esos largos polígonos en forma de pastel. En aguas más profundas, no espero que la naturaleza del fondo sea una continuación del fondo cercano a la costa. Empecé a pensar en dos líneas, ambas usando profundidad. Una es ponderar la elección del vecino 'más cercano' utilizando la diferencia de profundidad entre una celda de cuadrícula y puntos vecinos. Otro es deseleccionar los puntos vecinos que tienen más de una tolerancia específica diferente en profundidad. O, tal vez en lugar de una tolerancia previamente especificada, podría agrupar los rangos de profundidad y luego limitar la elección de puntos vecinos a aquellos en el mismo rango de profundidad o bin.

¿Alguna idea sobre cómo implementar cualquiera de estas dos opciones?

Desde que hablé con colegas en otros foros, he estado mirando otros enfoques. El primero implica el uso de una barrera, el contorno de 100 m de profundidad, para limitar la influencia de los datos cercanos a la costa. El desafío con este enfoque es que cualquiera de las rutinas de interpolación de ESRI que pueden usar barreras están diseñadas para trabajar con datos continuos en lugar de datos discontinuos. Podría usar las barreras para dividir los puntos en puntos poco profundos cerca de la costa y más profundos antes de crear polígonos Thiessen. Sin embargo, anticipo los efectos de borde desenfrenados ya que ArcGIS crea polígonos de Thiessen para áreas rectangulares, no para áreas complejas.

El segundo enfoque, sugerido por varios colegas, fue kriging. Inicialmente había descartado el kriging porque solo lo he considerado para datos continuos. El desafío con kriging es que tampoco está diseñado para datos categóricos. Ahora, estoy viendo cokriging con profundidad y naturaleza de la superficie, pero cualquier tipo de kriging implicará el uso de códigos numéricos enteros para la naturaleza de la superficie. Después, los códigos numéricos de coma flotante resultantes deberán reducirse a la codificación entera original. No es bonito.

¿Alguien puede sugerir otras líneas a seguir? (Quizás se podría utilizar el análisis del terreno. Por ejemplo, las pendientes más pronunciadas que el ángulo de reposo no podrían ser sedimentos. Estoy buscando algo más simple y, en cualquier caso, no tengo datos con una resolución espacial suficiente).

Saludos,

Doug Hrynyk
fuente

Respuestas:

4

El enfoque de kriging, implementado adecuadamente, es prometedor.

Como punto de partida, observe los "modelos geoestadísticos lineales generalizados" descritos por Diggle & Ribeiro en Geoestadística basada en modelos (Springer 2007). La idea subyacente es atractiva y flexible: un proceso estocástico espacial (que es espacialmente continuo ) determina las diversas probabilidades de las categorías. Uno usa las categorías observadas en puntos irregulares para inferir propiedades estadísticas de ese proceso subyacente, incluida su estructura de correlación espacial (variograma). Kriging luego crea una superficie de probabilidad consistente con las observaciones. En ese punto, puede realizar simulaciones geoestadísticas o puede hacer mapas relacionados con las probabilidades (como mapas de las categorías de máxima probabilidad, me imagino).

Esto suena sofisticado, y lo es. Sin embargo, la discusión de Diggle y Ribeiro es bastante accesible, aunque es matemática y supone cierto conocimiento de las estadísticas, tampoco depende en gran medida de ellos, y la mayoría de sus técnicas se implementan en los paquetes R que describen, geoRy geoRGLM. De hecho, es justo interpretar este libro como el manual de estos paquetes.

Como lo atestiguan otros subprocesos en este sitio, es relativamente fácil interactuar con R con datos SIG (incluido el shapefile y varios formatos ráster), por lo que no es un problema.

whuber
fuente