¿Cómo funciona la interpolación de Kriging?

Esta respuesta consiste en una sección introductoria que escribí recientemente para un artículo que describe una extensión espacio-temporal (modesta) de "Universal Kriging" (Reino Unido), que es una generalización modesta de "Kriging ordinario". Tiene tres subsecciones: la teoría proporciona un modelo estadístico y supuestos; Estimación revisa brevemente la estimación de parámetros de mínimos cuadrados; y Prediction muestra cómo kriging encaja en el marco de Mínimos cuadrados generalizados (GLS). Me he esforzado por adoptar una notación familiar para los estadísticos, especialmente los visitantes de este sitio, y para usar conceptos bien explicados aquí.

Para resumir, kriging es la mejor predicción imparcial lineal (BLUP) de un campo aleatorio. Lo que esto significa es que el valor predicho en cualquier ubicación no muestreada se obtiene como una combinación lineal de los valores y covariables observados en las ubicaciones muestreadas. El valor (desconocido, aleatorio) tiene una correlación asumida con los valores de la muestra (y los valores de la muestra están correlacionados entre sí). Esta información de correlación se traduce fácilmente en la varianza de la predicción. Uno elige los coeficientes en la combinación lineal (los "pesos de kriging") que hacen que esta varianza sea lo más pequeña posible, sujeta a una condición de sesgo cero en la predicción. Los detalles siguen.

Teoría

El Reino Unido comprende dos procedimientos, uno de estimación y otro de predicción, llevados a cabo en el contexto de un modelo GLS para un área de estudio. Los supone modelo GLS que los datos de muestra son el resultado de desviaciones aleatorias alrededor de una tendencia y que esas desviaciones están correlacionados. Se entiende por tendencia en el sentido general de un valor que puede determinarse mediante una combinación lineal de coeficientes desconocidos (parámetros) $z_i,\ (i = 1, 2, ..., n)$ $p$ . (A lo largo de esta publicación, el primer denota la transposición de la matriz y todos los vectores se consideran vectores de columna). $\beta=(\beta_1,\beta_2,\ldots,\beta_p)^\prime$ $^\prime$

En cualquier lugar dentro de un área de estudio hay disponible una tupla de atributos numéricos denominados "variables independientes" o "covariables". (Por lo general, es un "término constante", e pueden ser coordenadas espaciales, y el adicional $\mathbf y = (y_1, y_2, \ldots, y_p)^\prime$ $y_1 = 1$ $y_2$ $y_3$ $y_i$ puede representar información espacial, así como otra información auxiliar que esté disponible en todas las ubicaciones en el área de estudio, como la porosidad de un acuífero o la distancia a un pozo de bombeo.) En cada ubicación de datos , además de sus covariables , la observación asociada se considera la realización de una variable aleatoria . En contraste, el $i$ $y_i = (y_{i1}, y_{i2}, \ldots, y_{ip})^\prime$ $z_i$ $Z_i$ $y_i$ se consideran valores determinados por o que caracterizan los puntos o pequeñas regiones representadas por las observaciones (los datos "apoyan"). Los no se consideran realizaciones de variables aleatorias y se requiere que no estén relacionados con las propiedades de ninguno de los . $y_i$ $Z_i$

La combinación lineal expresa el valor esperado de en términos de los parámetros , que es el valor de la tendencia en el lugar . El proceso de estimación utiliza los datos para encontrar los valores de que representan los parámetros desconocidos

mi [Z_{yo}] = {y^{'}}_{yo} β = y_{yo 1} β_{1} + y_{yo 2} β_{2} + \dots + y_{yo pag} β_{pag}

${\bf{E}}\left[ {Z_i } \right] = {\bf{y'}}_i {\bf{\beta }} = y_{i1} \beta _1 + y_{i2} \beta _2 + \cdots + y_{ip} \beta _p$

Z_{i}

$Z_i$

β

$\beta$

i

$i$

{\hat{β}}_{i}

$\hat\beta_i$

β_{i}

$\beta_i$ , mientras que el proceso de predicción utiliza los datos en las ubicaciones

para calcular un valor en una ubicación no muestreada, que aquí se indexa como

. Los objetivos de estimación son parámetros fijos ( es decir , no aleatorios), mientras que el objetivo de predicción es aleatorio, porque el valor

incluye una fluctuación aleatoria alrededor de su tendencia

. Por lo general, las predicciones se realizan para múltiples ubicaciones utilizando los mismos datos variando la ubicación

i = 1, 2, \dots, n

$i = 1, 2, \ldots, n$

i = 0

$i = 0$

z_{0}

$z_0$

y_{0}^{'} β

$y_0^\prime\beta$

0

$0$ . Por ejemplo, a menudo se hacen predicciones para trazar una superficie a lo largo de una cuadrícula regular de puntos adecuados para contornear.

Estimacion

El kriging clásico asume las fluctuaciones aleatorias tiene valores esperados de cero y se conocen sus covarianzas. Escribe la covarianza entre y como . Usando esta covarianza, la estimación se realiza usando GLS. Su solución es la donde $Z_i$ $Z_i$ $Z_j$ $c_{ij}$

\hat{β} = H z, H = {({Y^{'} C}^{- 1} Y)}^{- 1} {Y^{'} C}^{- 1}

$\hat\beta=\bf{Hz},\ {\bf{H}} = \left( {{\bf{Y'C}}^{{\bf{ - 1}}} {\bf{Y}}} \right)^{{\bf{ - 1}}} {\bf{Y'C}}^{{\bf{ - 1}}}$

es elvector

de las observaciones,

(la "matriz de diseño") es lamatriz

por

cuyas filas son los vectores

, y

es lamatriz de covarianza

by-

que se supone que es invertible (Draper y Smith (1981), sección 2.11). los

z = (z_{1}, z_{2}, \dots, z_{n})

${\bf {z}} = (z_1, z_2, \ldots, z_n)$

n

$n$

Y = (y_{i j})

${\bf Y} = (y_{ij})$

n

$n$

p

$p$

y_{i}^{'}, 1 \leq i \leq n

$y_i^\prime, 1 \le i \le n$

C = (c_{i j})

$\mathbf C = (c_{ij})$

n

$n$

n

$n$

por

matriz

, que proyecta los datos

en el parámetro estimaciones

, se llama la “matriz sombrero.” La formulación de

como la aplicación de la matriz de sombrero a los datos explícitamente muestra cómo las estimaciones de los parámetros dependen linealmente de los datos. Las covarianzas

se calculan clásicamente utilizando un variograma que proporciona la covarianza en términos de las ubicaciones de los datos, aunque no es importante cómo se calcula realmente la covarianza.

p

$p$

n

$n$

H

$\mathbf H$

z

$\mathbf z$

\hat{β}

$\hat \beta$

\hat{β}

$\hat\beta$

C = (c_{i j})

$\mathbf C = (c_{ij})$

Predicción

UK predice de manera similar por medio de una combinación lineal de los datos Los se denominan "pesos de kriging" para la predicción de . El Reino Unido cumple esta predicción de al cumplir dos criterios. Primero, la predicción debe ser imparcial, lo que se expresa al requerir que la combinación lineal de las variables aleatorias $z_0$

{\hat{z}}_{0 0} = λ_{1} z_{1} + λ_{2} z_{2} + \dots + λ_{norte} z_{norte} = λ^{'} z .

$\hat z_0 = \lambda _1 z_1 + \lambda _2 z_2 + \cdots + \lambda _n z_n = {\bf{\lambda 'z}}.$

λ_{i}

$\lambda_i$

z_{0}

$z_0$

z_{0}

$z_0$

es igual a

en promedio:

Esta expectativa se toma sobre ladistribuciónconjunta

-variable de

Z_{i}

$Z_i$

Z_{0}

$Z_0$

0 0 = mi [{\hat{Z}}_{0 0} - Z_{0 0}] = mi [λ^{'} Z - Z_{0 0}] .

$0 = {\bf{E}}\left[ {\hat Z_0 - Z_0 } \right] = {\bf{E}}\left[ {{\bf{\lambda 'Z}} - Z_0 } \right].$

n + 1

$n+1$

Z_{0}

$Z_0$

Z = (Z_{1}, Z_{2}, \dots, Z_{n})

$\mathbf Z = (Z_1, Z_2, \ldots, Z_n)$ . La linealidad de la expectativa junto con el supuesto de tendencia (1) implica:

\begin{aligned} 0 0 & = mi [λ^{'} Z - Z_{0 0}] = λ^{'} mi [Z] - mi [Z_{0 0}] = λ^{'} (Y β) - {y^{'}}_{0 0} β = (λ^{'} Y - {y^{'}}_{0 0}) β \\ = β^{'} (Y^{'} λ - y_{0 0}) \end{aligned}

$\eqalign{ 0 &= {\bf{E}}\left[ {{\bf{\lambda 'Z}} - Z_0 } \right] = {\bf{\lambda 'E}}\left[ {\bf{Z}} \right] - {\bf{E}}\left[ {Z_0 } \right] = {\bf{\lambda '}}\left( {{\bf{Y\beta }}} \right) - {\bf{y'}}_0 {\bf{\beta }} = \left( {{\bf{\lambda 'Y}} - {\bf{y'}}_0 } \right){\bf{\beta }}\\ &= {\bf{\beta '}}\left( {{\bf{Y'\lambda }} - {\bf{y}}_0 } \right) }$

no importa lo que sea . Este será el caso siempre que $\beta$

{\hat{Y}}^{'} λ = y_{0 0} .

$\hat{\mathbf Y}^\prime \lambda = \mathbf{y}_0.$

$\lambda$ $\hat Z_0 - Z_0$

V una r ({\hat{Z}}_{0 0} - Z_{0 0}) = mi [{({\hat{Z}}_{0 0} - Z_{0 0})}^{2}] = mi [{(λ^{'} Z - Z_{0 0})}^{2}] = C_{00} - 2 {λ^{'} C}_{0 0} + λ^{'} C λ

${\rm{Var}}\left( {\hat Z_0 - Z_0 } \right) = {\bf{E}}\left[ {\left( {\hat Z_0 - Z_0 } \right)^2 } \right] = {\bf{E}}\left[ {\left( {{\bf{\lambda 'Z}} - Z_0 } \right)^2 } \right] = c_{00} - 2{\bf{\lambda 'c}}_0 + {\bf{\lambda 'C\lambda }}$

c_{0} = (c_{01}, c_{02}, \dots, c_{0 n})^{'}

$\mathbf c_0 = (c_{01}, c_{02}, \ldots, c_{0n})^\prime$

Z_{0}

$Z_0$

Z_{i}, i \geq 1

$Z_i,\ i \ge 1$

c_{00}

$c_{00}$

Z_{0}

$Z_0$

$\lambda$ $p$ $\mu$ $\hat{\mathbf Y}^\prime \lambda = \mathbf{y}_0$ $n+p$

(\begin{matrix} C & Y \\ Y^{'} & 0 0 \end{matrix}) (\begin{matrix} λ \\ μ \end{matrix}) = (\begin{matrix} C_{0 0} \\ y_{0 0} \end{matrix})

$\left( {\begin{array}{*{20}c} {\bf{C}} & {\bf{Y}} \\ {{\bf{Y'}}} & {\bf{0}} \\ \end{array}} \right)\left( {\begin{array}{*{20}c} {\bf{\lambda }} \\ {\bf{\mu }} \\ \end{array}} \right) = \left( {\begin{array}{*{20}c} {{\bf{c}}_{\bf{0}} } \\ {{\bf{y}}_{\bf{0}} } \\ \end{array}} \right)$

0

$\mathbf 0$

p

$p$

p

$p$

1

$\mathbf 1$

n

$n$

n

$n$

λ

$\lambda$

λ = {H^{'} y}_{0 0} + C^{- 1} (1 - Y H) C_{0 0} .

${\bf{\lambda }} = {\bf{H'y}}_0 + {\bf{C}}^{ - 1} \left( {{\bf{1}} - {\bf{YH}}} \right){\bf{c}}_0.$

(Los lectores familiarizados con la regresión múltiple pueden encontrar instructivo comparar esta solución con la solución basada en covarianza de las ecuaciones normales de mínimos cuadrados ordinarios , que se ve casi exactamente igual, pero sin términos multiplicadores de Lagrange).

$\lambda$ $[\mathbf H^\prime\, \mathbf y_0]$ $Z_0$ $\hat z_0$

whuber
fuente

Muchas gracias whuber, esto es exactamente lo que estoy buscando. Has resuelto este problema por mí, ahora entiendo Kriging. Realmente aprecio tu ayuda, muchas gracias.

Dania

{\hat{Y}}^{'}

$\hat{\mathbf Y}^\prime$

Y^{'} = (y_{j i})

${\bf Y}^\prime = (y_{ji})$

p

$p$

n

$n$

y_{i}, 1 \leq i \leq n

$y_i, 1 \le i \le n$

¿Cómo funciona la interpolación de Kriging?

Respuestas:

Teoría

Estimacion

Predicción