Intervalo de confianza de datos ráster

8

Tengo datos ráster que representan una distribución de probabilidad, es decir, cada celda tiene un valor de probabilidad (en mi caso, la probabilidad de que se pueda encontrar un animal en la celda), y todas las celdas suman 100% (sé con certeza el animal está dentro de la extensión de mi trama). Quiero poder generar datos vectoriales para valores de confianza. Por ejemplo, el 95% de línea / polígono denota el límite en el que estoy 95% seguro de que encontraré al animal.

De manera similar, si tengo una estimación de la densidad del núcleo, ¿cómo genero la línea / polígono del XX% que bordea la parte más densa del ráster que contiene el XX% de la población total?

Estoy dispuesto a usar ArcGIS o software de código abierto. Si no hay una herramienta para realizar esto, ¿qué algoritmo puedo implementar?

Regan Sarwas
fuente
Las soluciones de Mathematica han aparecido recientemente en Mathica.stackexchange.com/questions/20464 .
whuber

Respuestas:

3

La confianza no es un concepto aplicable, aunque es superficialmente similar. La pregunta suena como si quisiera identificar la región más pequeña que tiene una probabilidad total de al menos el 95%. Esta región se puede obtener (al menos conceptualmente) clasificando todas las probabilidades y acumulándolas de mayor a menor hasta que la suma parcial primero sea igual o superior al 95%, luego seleccionando las celdas correspondientes a los valores que se han acumulado. Esto lleva a una solución sencilla, como se ejemplifica en este ejemplo de R (código abierto):

library(raster)
set.seed(17)                   # Seed a reproducible random sequence
nr <- 30                       # Number of rows                    
nc <- 50                       # Number of columns
#
# Create a zone raster for normalizing the probabilities.
#
zone <- raster(ncol=nc, nrow=nr)
zone[] <- 0
#
# Create a probability raster (for illustrating the algorithm later).
#
p <- raster(ncol=nc, nrow=nr)
p[] <- (1:(nc*nr) - 1/2) / (nc*nr) + rnorm(nc*nr, sd=0.5)
p <- abs(focal(p, ngb=5, run=mean))
z <- zonal(p, zone, stat='sum')
p <- p / z[[2]] # This normalizes p to sum to unity as required
#------------------------------------------------------------------------------#
#
# The algorithm begins here.
#
pvec <- sort(getValues(p), decreasing=TRUE) # The probabilities, sorted
d <- cumsum(pvec)                           # Cumulative probabilities
dpos <- d[d <= 0.95]                        # Position to stop
region <- p                                 # Initialize the output
region[p < pvec[length(dpos)]] <- NA        # Exclude the last 5% of the probability
plot(region)                                # Display the result

Aquí está la imagen resultante de la región de probabilidad del 95% con las probabilidades originales que se muestran en color: suman un poco más del 95%, por construcción, y eliminar incluso el valor más pequeño reducirá la suma a menos del 95%. El área blanca en la parte superior incluye el 5% restante de la probabilidad fuera de esta región. El contorno deseado es el límite entre las celdas blancas y las celdas de colores.

Resultado

El mismo método funcionará en una cuadrícula de KDE.

No existe una solución sencilla de ArcGIS para este problema.

whuber
fuente
Ja, superficial, describe correctamente mi comprensión de la probabilidad. Muchas gracias por a) interpretar correctamente mi pregunta mal redactada, yb) proporcionar una respuesta clara.
Regan Sarwas
0

En ArcGIS ...

  • Herramientas de estadísticas espaciales> Reclasificar> Herramienta Reclasificar
    • Crea 2 métodos de reclasificación:
    • OldValues ​​= 0-94.99 | NewValues ​​= 0
      OldValues ​​= 95-100 | NewValues ​​= 1

Esto creará un nuevo ráster con 2 valores, 0 = intervalo de confianza externo, 1 = intervalo de confianza interno del 95%.

  • Herramientas de conversión> De ráster> Herramienta Ráster a polígono
    • Entrada =
      Campo ráster reclasificado = Valor

Esto creará un polígono vectorial con 2 FID, uno con la forma de su intervalo de confianza del 95% y el otro el área de trama restante. Sugeriría explorar la opción simplificar para ver qué resultados se adaptarían mejor a sus necesidades.

Para su información, aplique el mismo método para obtener los polígonos para sus estimaciones de densidad Kernal.

Michael Markieta
fuente
Quizás no estaba claro (no soy muy bueno con la probabilidad). En resumen, el total de los valores en todas mis celdas es 1.0, por lo que con una distribución uniforme en una cuadrícula de 100x100, cada celda tendría un valor de 1/10000. Ahora imagine que los valores de las celdas varían desde un número ligeramente mayor cerca del centro hasta valores de cero cerca de los bordes (que aún suman 1.0). Si comienzo a eliminar celdas con los valores más pequeños, eventualmente me quedaré con un total de 0.95. ¿Cómo hago esto para poder reclasificar como me has sugerido?
Regan Sarwas
Extraño, comprensivo uso de rásteres para mostrar representación estadística de datos, su valor de probabilidad (valor de celda) estaría en cualquier lugar de 0 a 100 (o en su caso 0 a 1), y la distribución de estos valores (valores de celda) representaría Una distribución normal.
Michael Markieta 01 de
Si es cierto, entonces podemos reclasificar los datos utilizando el método sugerido anteriormente, aunque sustituya los valores de .9499 y .95 para 94.99 y 95
Michael Markieta
1
Esta solución no refleja la cuadrícula descrita en la pregunta. Piense en la cuadrícula de entrada como una distribución de probabilidad bidimensional discreta en lugar de ser una "representación estadística de datos". En casos prácticos (cuadrículas medianas a grandes, rango de animales moderadamente bien distribuido) la mayoría de las probabilidades serán extremadamente pequeñas, mucho menos del 95%, por lo que la reclasificación simplemente borrará toda la información: todo se vuelve cero.
whuber