Comprender la regresión del proceso gaussiano a través de la vista de función de base de dimensiones infinitas

A menudo se dice que la regresión del proceso gaussiano corresponde (GPR) a la regresión lineal bayesiana con una (posiblemente) cantidad infinita de funciones básicas. Actualmente estoy tratando de entender esto en detalle para tener una intuición de qué tipo de modelos puedo expresar usando GPR.

¿Crees que este es un buen enfoque para tratar de entender el GPR?

En el libro Procesos gaussianos para el aprendizaje automático, Rasmussen y Williams muestran que el conjunto de procesos gaussianos descritos por el núcleo cuadrado exponencial parametrizado se puede describir de manera equivalente como una regresión bayesiana con una creencia previaen los pesos y una cantidad infinita de funciones básicas de la forma

k (X, X^{'}; l) = σ_{pag}^{2} Exp (- \frac{(X - X)^{2}}{2 l^{2}})

$k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)$

w \sim N (0, σ_{p}^{2} I)

$w \sim \mathcal{N}(0,\sigma_p^2 I)$

Por lo tanto, la parametrización del núcleo podría traducirse completamente en una parametrización de las funciones básicas.

ϕ_{C} (X; l) = Exp (- \frac{(X - C)^{2}}{2 l^{2}})

$\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right)$

¿Puede la parametrización de un núcleo diferenciable siempre traducirse en la parametrización de las funciones anteriores y básicas o hay núcleos diferenciables donde, por ejemplo, el número de funciones básicas depende de la configuración?

$k(x,x')$

k (X, X^{'}) = \sum_{yo = 1}^{\infty} λ_{yo} ϕ_{yo} (X) ϕ_{yo} (X^{'})

$k(x,x')=\sum_{i=1}^\infty \lambda_i\phi_i(x)\phi_i(x')$

ϕ_{i}

$\phi_i$

w \sim N (0, diag ([λ_{1}^{2}, \dots]))

$w \sim \mathcal{N}(0,\text{diag}([\lambda_1^2,\ldots]))$

ϕ_{i}

$\phi_i$

k (x, x^{'}, θ)

$k(x,x',\theta)$

θ

$\theta$

Mi siguiente pregunta es sobre el teorema inverso de mercer.

¿Qué conjuntos de funciones básicas conducen a núcleos válidos?

Y la extensión

¿Qué conjuntos de funciones base parametrizadas conducen a núcleos diferenciables válidos?

gaussian-process kernel-trick basis-function Julian Karls
fuente

Respuestas:

Aquí hay algunos comentarios. Quizás alguien más pueda completar los detalles.

1) Las representaciones básicas son siempre una buena idea. Es difícil evitarlos si realmente quieres hacer algo computacional con tu función de covarianza. La expansión de la base puede darle una aproximación al núcleo y algo con lo que trabajar. La esperanza es que pueda encontrar una base que tenga sentido para el problema que está tratando de resolver.

$\theta$ $\theta$

Típicamente, el número de funciones básicas será (contablemente) infinito, por lo que el número no variará con el parámetro, a menos que algunos valores causen que el núcleo se degenere.

$w \sim \mathcal{N}(0,diag[\lambda_1^2, \ldots])$ $w$ $diag[\lambda_1^2, \ldots]$

$\lambda_i$ $\lambda_i$ $x$

Si las funciones básicas no son ortogonales, será más difícil demostrar que una covarianza definida a partir de ellas es positiva definida. Obviamente, en ese caso no se trata de una expansión propia, sino de alguna otra manera de aproximar la función de interés.

Sin embargo, no creo que las personas generalmente comiencen con un montón de funciones y luego intenten construir un núcleo de covarianza a partir de ellas.

RE: Diferenciabilidad del núcleo y diferenciabilidad de las funciones básicas. En realidad no sé la respuesta a esta pregunta, pero ofrecería la siguiente observación.

El análisis funcional procede mediante la aproximación de funciones (desde un espacio dimensional infinito) mediante sumas finitas de funciones más simples. Para que esto funcione, todo depende del tipo de convergencia involucrado. Por lo general, si está trabajando en un conjunto compacto con fuertes propiedades de convergencia (convergencia uniforme o sumabilidad absoluta) en las funciones de interés, obtendrá el tipo de resultado intuitivo que está buscando: las propiedades de las funciones simples pasan a la función de límite, por ejemplo, si el núcleo es una función diferenciable de un parámetro, entonces las funciones de expansión deben ser funciones diferenciables del mismo parámetro, y viceversa. Bajo propiedades de convergencia más débiles o dominios no compactos, esto no sucede. En mi experiencia, hay un contraejemplo a cada idea "razonable" que se le ocurre.

Nota: Para evitar la posible confusión de los lectores de esta pregunta, tenga en cuenta que la expansión gaussiana del punto 1 no es un ejemplo de la expansión propia del punto 2.

Placidia
fuente