Interpretación probabilística de las estrías de alisado de placas finas

TLDR: ¿Las estrías de regresión de placa delgada tienen una interpretación probabilística / bayesiana?

Dados pares de entrada-salida , ; Quiero estimar una función siguiente manera donde es una función del núcleo y es un vector de características de tamaño . Los coeficientes y se pueden encontrar resolviendo donde las filas de están dadas por $(x_i,y_i)$ $i=1,...,n$ $f(\cdot)$

f (x) \approx u (x) = ϕ (x_{i})^{T} β + \sum_{i = 1}^{n} α_{i} k (x, x_{i}),

$\begin{equation}f(x)\approx u(x)=\phi(x_i)^T\beta +\sum_{i=1}^n \alpha_i k(x,x_i),\end{equation}$

k (\cdot, \cdot)

$k(\cdot,\cdot)$

ϕ (x_{i})

$\phi(x_i)$

m < n

$m<n$

α_{i}

$\alpha_i$

β_{i}

$\beta_i$

min_{α \in R^{n}, β \in R^{m}} \frac{1}{n} ‖ Y - Φ β - K α ‖_{R^{n}}^{2} + λ α^{T} K α,

$\begin{equation} {\displaystyle \min _{\alpha\in R^{n},\beta \in R^{m}}{\frac {1}{n}}\|Y-\Phi\beta -K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation}$

Φ

$\Phi$

ϕ (x_{i})^{T}

$\phi(x_i)^T$ y, con algún abuso de notación, la entrada

i, j

$i,j$ de la matriz del núcleo

K

$K$ es

k (x_{i}, x_{j})

$k(x_{i},x_{j})$ . Esto da

α^{*} = λ^{- 1} (I + λ^{- 1} K)^{- 1} (Y - Φ β^{*})

$\begin{equation} \alpha^*=\lambda^{-1}(I+\lambda^{-1}K)^{-1}(Y-\Phi\beta^*) \end{equation}$

β^{*} = {Φ^{T} (I + λ^{- 1} K)^{- 1} Φ}^{- 1} Φ^{T} (I + λ^{- 1} K)^{- 1} Y .

$\begin{equation} \beta^*=\{\Phi^T(I+\lambda^{-1}K)^{-1}\Phi\}^{-1}\Phi^T(I+\lambda^{-1}K)^{-1}Y. \end{equation}$ Suponiendo que

k (\cdot, \cdot)

$k(\cdot,\cdot)$ es una función de núcleo definida positiva, esta solución puede verse como el mejor predictor imparcial lineal para el siguiente modelo bayesiano:

y | (β, h (\cdot)) \sim N (ϕ (x) β + h (x), σ^{2}),

$\begin{equation} y~\vert~(\beta,h(\cdot))~\sim~N(\phi(x)\beta+h(x),\sigma^2), \end{equation}$

h (\cdot) \sim G P (0, τ k (\cdot, \cdot)),

$\begin{equation} h(\cdot)~\sim~GP(0,\tau k(\cdot,\cdot)), \end{equation}$

β \propto 1,

$\begin{equation} \beta\propto1, \end{equation}$ donde

σ^{2} / τ = λ

$\sigma^2/\tau=\lambda$ y

G P

$GP$ denota un proceso gaussiano. Ver por ejemplo https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2665800/

Mi pregunta es la siguiente. Supongamos que dejo $k(x,x'):=|x-x'|^2 \ln(|x-x'|)$ y $\phi(x)^T=(1,x)$ , es decir, la ranura delgada de la placa regresión. Ahora, $k(\cdot,\cdot)$ no es una función semidefinida positiva y la interpretación anterior no funciona. ¿El modelo anterior y su solución aún tienen una interpretación probabilística en el caso de que $k(\cdot,\cdot)$ sea semidefinido positivo?

regression bayesian gaussian-process smoothing semiparametric MthQ
fuente

Parece suponer que la está en un espacio -dimensional con o al menos que el número entero es par.

x

$x$

d

$d$

d = 2

$d=2$

d

$d$

Yves

Ok, ¿cuáles son las implicaciones?

MthQ

Esto fue solo un comentario secundario porque en la pregunta uno puede pensar que son escalares. Pero en este caso, el núcleo de Duchon tiene la forma con entero, para la spline de suavizado habitual. Creo que la interpretación probabilística permanece casi sin cambios, pero el GP no es estacionario: es una función aleatoria intrínseca . Para la spline de suavizado habitual, esto resulta ser un proceso Wiener integrado.

x_{i}

$x_i$

| x - x^{'} |^{2 m - 1}

$|x - x'|^{2m-1}$

m

$m$

m = 2

$m=2$

Yves

@Yves eso suena interesante. Es posible que desee ampliar su comentario a una respuesta, explicando un poco más qué es una función aleatoria intrínseca y agregando el ejemplo clásico de la spline de suavizado. Si le preocupa probar que el núcleo TPS da lugar a un GP no estacionario, tal vez una simulación podría ser un compromiso útil, especialmente si agrega una estimación no paramétrica de la varianza de la distribución predictiva posterior.

DeltaIV

@DeltaIV. Gracias. Intentaré hacerlo, aún no es una tarea fácil. Estoy bastante seguro de que esto se cumple cuando las funciones son polinomios adecuados relacionados con el núcleo, pero esto podría no ser cierto con arbitrario como en el contexto GP más clásico.

ϕ_{j}

$\phi_j$

ϕ_{j}

$\phi_j$

Yves

Deje que el modelo de la pregunta se escriba como donde es un GP no observado con índice y es un término de ruido normal con varianza . Por lo general, se supone que el GP es centrado, estacionario y no determinista. Tenga en cuenta que el término puede considerarse como un GP (determinista) con kernel donde

\begin{matrix} (1) & Y_{i} = ϕ (x_{i})^{⊤} β + h (x_{i}) + ε_{i} \end{matrix}

$\begin{equation} \tag{1} Y_i = \boldsymbol{\phi}(\mathbf{x}_i)^\top\boldsymbol{\beta} + h(\mathbf{x}_i) + \varepsilon_i \end{equation}$

h (x)

$h(\mathbf{x})$

x \in R^{d}

$\mathbf{x} \in \mathbb{R}^d$

ε_{i}

$\varepsilon_i$

σ^{2}

$\sigma^2$

ϕ (x)^{⊤} β

$\boldsymbol{\phi}(\mathbf{x})^\top \boldsymbol{\beta}$

ϕ (x)^{⊤} B ϕ (x)

$\boldsymbol{\phi}(\mathbf{x})^\top \mathbf{B}\, \boldsymbol{\phi}(\mathbf{x})$

B

$\mathbf{B}$ es una matriz de covarianza de `` valor infinito ''. De hecho, al tomar con obtenemos las ecuaciones de kriging de la pregunta. Esto a menudo se denomina el difuso anterior para . Un posterior apropiado para resulta solo cuando la matriz tiene rango completo. Entonces el modelo escribe tan bien como donde es un GP . La misma interpretación de Bayes se puede usar con restricciones cuando ya no es un GP sino un

B := ρ I

$\mathbf{B} := \rho \, \mathbf{I}$

ρ \to \infty

$\rho \to \infty$

β

$\boldsymbol{\beta}$

β

$\boldsymbol{\beta}$

Φ

$\boldsymbol{\Phi}$

\begin{matrix} (2) & Y_{i} = ζ (x_{i}) + ε_{i} \end{matrix}

$\begin{equation} \tag{2} Y_i = \zeta(\mathbf{x}_i) + \varepsilon_i \end{equation}$

ζ (x)

$\zeta(\mathbf{x})$

ζ (x)

$\zeta(\mathbf{x})$ Función aleatoria intrínseca (IRF). La derivación se puede encontrar en el libro de G. Wahba. Las presentaciones legibles del concepto de IRF se encuentran, por ejemplo, en el libro de N. Cressie y el artículo de Mardia et al. Los IRF son similares a los procesos integrados bien conocidos en el contexto de tiempo discreto (como ARIMA): un IRF se transforma en un GP clásico mediante un tipo de operación de diferenciación.

Aquí hay dos ejemplos de IRF para . En primer lugar, considere un proceso de Wiener con su condición inicial reemplazada por una condición inicial difusa : es normal con una varianza infinita. Una vez que se conoce un valor , se puede predecir el IRF como es el GP de Wiener. En segundo lugar, considere un proceso Wiener integrado dado por la ecuación donde es un proceso de Wiener. Para obtener un GP ahora necesitamos dos parámetros escalares: dos valores y para $d=1$ $\zeta(x)$ $\zeta(0) = 0$ $\zeta(0)$ $\zeta(x)$

d^{2} ζ (x) / d x^{2} = d W (x) / d x

$\text{d}^2 \zeta(x) / \text{d}x^2 = \text{d} W(x)/\text{d}x$

W (x)

$W(x)$

ζ (x)

$\zeta(x)$

ζ (x^{'})

$\zeta(x')$

x \neq x^{'}

$x \neq x'$ , o los valores y en alguna elegida . Podemos considerar que los dos parámetros adicionales son conjuntamente gaussianos con una matriz de covarianza infinita . En ambos ejemplos, tan pronto como esté disponible un conjunto finito adecuado de observaciones, el IRF casi se enfrenta como un GP. Además, utilizamos un operador diferencial: y respectivamente. El espacio nulo es un espacio lineal de funciones tal que . Contiene la función constante

ζ (x)

$\zeta(x)$

d ζ (x) / d x

$\text{d}\zeta(x) / \text{d}x$

x

$x$

2 \times 2

$2 \times 2$

L := d / d x

$L := \text{d}/ \text{d}x$

L := d^{2} / d x^{2}

$L := \text{d}^2/ \text{d}x^2$

F

$\mathcal{F}$

ϕ (x)

$\phi(x)$

L ϕ = 0

$L \phi = 0$

ϕ_{1} (x) = 1

$\phi_1(x)=1$ en el primer caso y las funciones y en el segundo caso. Tenga en cuenta que en el primer ejemplo es GP para cualquier fijo en el primer ejemplo y de manera similar es un GP en el segundo caso.

ϕ_{1} (x) = 1

$\phi_1(x)=1$

ϕ_{2} (x) = x

$\phi_2(x) = x$

ζ (x) - ζ (x + δ)

$\zeta(x) - \zeta(x + \delta)$

δ

$\delta$

ζ (x - δ) - 2 ζ (x) + ζ (x + δ)

$\zeta(x-\delta) - 2 \zeta(x) + \zeta(x + \delta)$

Para una dimensión general , considere un espacio lineal de funciones definidas en . Llamamos a un incremento relativo a una colección finita de ubicaciones y pesos reales tales que Considere como el espacio nulo de nuestros ejemplos. Para el primer ejemplo podemos tomar, por ejemplo, con y arbitraria y $d$ $\mathcal{F}$ $\mathbb{R}^d$ $\mathcal{F}$ $s$ $\mathbf{x}_i \in \mathbb{R}^d$ $s$ $\nu_i$

\sum_{i = 1}^{s} ν_{i} ϕ (x_{i}) = 0 for all ϕ \in F .

$\sum_{i=1}^s \, \nu_i \,\phi(\mathbf{x}_i) = 0 \text{ for all } \phi \in \mathcal{F}.$

F

$\mathcal{F}$

s = 2

$s=2$

x_{1}

$x_1$

x_{2}

$x_2$

[1, - 1]

$[1, \, -1]$ . Para el segundo ejemplo, podemos tomar sy espaciado igual . La definición de un IRF implica un espacio de funciones y una función que es condicionalmente positivo wrt , lo que significa que mantiene tan pronto como es un incremento wrt . De y

s = 3

$s = 3$

x_{i}

$x_i$

ν = [1, - 2, 1]

$\boldsymbol{\nu} = [1,\,-2,\,1]$

F

$\mathcal{F}$

g (x, x^{'})

$g(\mathbf{x}, \, \mathbf{x}')$

F

$\mathcal{F}$

\sum_{i = 1}^{s} \sum_{j = 1}^{s} ν_{i} ν_{j} g (x_{i}, x_{j}^{'}) \geq 0

$\sum_{i=1}^s \sum_{j=1}^s \nu_i \nu_j \, g(\mathbf{x}_i, \, \mathbf{x}'_j) \geq 0$

[ν_{i}, x_{i}]_{i = 1}^{s}

$[\nu_i,\,\mathbf{x}_i]_{i=1}^s$

F

$\mathcal{F}$

F

$\mathcal{F}$

g (x, x^{'})

$g(\mathbf{x},\,\mathbf{x}')$ podemos hacer un núcleo de covarianza, por lo tanto, un GP como en Mardia et al. Podemos comenzar desde un operador diferencial lineal y usar el espacio nulo como ; la IRF tendrá conexión con la ecuación un ruido gaussiano.

L

$L$

F

$\mathcal{F}$

L ζ =

$L \zeta =$

El cálculo de la predicción del IRF es casi el mismo que en la pregunta, con reemplazado por , pero con ahora formando una base de . La restricción adicional debe agregarse en el problema de optimización, lo que garantizará que . Todavía podemos agregar más funciones básicas que no están en si es necesario; esto tendrá el efecto de agregar un GP determinista, digamos al IRF $k(\mathbf{x},\,\mathbf{x}')$ $g(\mathbf{x},\,\mathbf{x}')$ $\phi_i(\mathbf{x})$ $\mathcal{F}$ $\boldsymbol{\Phi}^\top \boldsymbol{\alpha} = \mathbf{0}$ $\boldsymbol{\alpha}^\top \mathbf{K} \boldsymbol{\alpha} \geq 0$ $\mathcal{F}$ $\boldsymbol{\psi}(\mathbf{x})^\top\boldsymbol{\gamma}$ $\zeta(\mathbf{x})$ en (2).

La spline de placa delgada depende de un número entero tal que , el espacio contiene polinomios de bajo grado, con una dimensión depende de y . Se puede demostrar que si es la siguiente función para luego define un wrt condicionalmente positivo . La construcción se refiere a un operador diferencial $m$ $m> 2d$ $\mathcal{F}$ $p(m)$ $m$ $d$ $E(r)$ $r \geq 0$

E (r) := {\begin{cases} (- 1)^{m + 1 + d / 2} r^{2 m - d} \log r & d even, \\ r^{2 m - d} & d odd, \end{cases}

$E(r) := \begin{cases} (-1)^{m + 1 + d /2} \, r^{2m-d} \log r & d \text{ even},\\ r^{2m-d} & d \text{ odd,} \end{cases}$

g (x, x^{'}) := E (‖ x - x^{'} ‖)

$g(\mathbf{x},\,\mathbf{x}') := E(\|\mathbf{x} - \mathbf{x}'\|)$

F

$\mathcal{F}$

L

$L$ . Resulta que para y de la delgada spline placa hay nada que el spline cúbico natural, usual, que se refiere al ejemplo Wiener integrado anteriormente, con . Entonces (2) no es más que el modelo de spline de suavizado habitual. Cuando y el espacio nulo tiene dimensión y se genera por las funciones , y .

d = 1

$d=1$

m = 2

$m=2$

g (x, x^{'}) = | x - x^{'} |^{3}

$g(x,\,x') = |x - x'|^3$

d = 2

$d=2$

m = 2

$m=2$

p (m) = 3

$p(m)=3$

1

$1$

x_{1}

$x_1$

x_{2}

$x_2$

Estadísticas de Cressie N para datos espaciales . Wiley 1993.

Mardia KV, Kent JT, Goodall CR y Little JA. Kriging y splines con información derivada. Biometrika (1996), 83,1, pp. 207-221.

Modelos Wahba G Spline para datos de observación . SIAM 1990.

Wang, Y Alisar Splines, Métodos y Aplicaciones . Chapman y Hall, 2011.

Yves
fuente

Muchas gracias por el esfuerzo que pusiste. Muy útil. Tengo una pregunta adicional. Por lo tanto, agregar funciones adicionales a (además de las funciones de ) no cambia la interpretación de . Sin embargo, sí noté que la solución dada en mi pregunta anterior siempre satisface , no solo si . ¿Cómo se puede interpretar esto?

ϕ (\cdot)

$\boldsymbol{\phi}(\cdot)$

F

$\mathcal{F}$

ζ (\cdot)

$\zeta(\cdot)$

α^{*}

$\alpha^*$

Φ^{⊤} α = 0

$\boldsymbol{\Phi}^\top \boldsymbol{\alpha} = \mathbf{0}$

ϕ (\cdot) \in F

$\boldsymbol{\phi}(\cdot)\in \mathcal{F}$

MthQ

Si. En ambos casos hay funciones básicas en la aproximación de , mientras que solo se usan observaciones. Entonces tenemos algo así como una regresión deficiente en el rango con coeficientes y . Dado que la parte no está penalizada, tiende a 'absorber' más la variación de que la parte que trae restricciones lineales. Tenga en cuenta que nada prohíbe el uso de algunas de las funciones de "desplazamiento del núcleo" como . Si los usamos todos, entonces todos

n + p

$n+p$

f (x)

$f(x)$

n

$n$

β_{i}

$\beta_i$

α_{j}

$\alpha_j$

β

$\beta$

y

$y$

α

$\alpha$

p

$p$

n

$n$

x \mapsto k (x, x_{i})

$x \mapsto k(x, x_i)$

ϕ_{j} (x)

$\phi_j(x)$

α_{j}^{⋆}

$\alpha_j^\star$ son cero, lo que parece sensato.

Yves

Interpretación probabilística de las estrías de alisado de placas finas

Respuestas: