Beneficios de procesos gaussianos

13

Tengo esta confusión relacionada con los beneficios de los procesos gaussianos. Me refiero a compararlo con una regresión lineal simple, donde hemos definido que la función lineal modela los datos.

Sin embargo, en los procesos gaussianos, definimos la distribución de las funciones, lo que significa que no definimos específicamente que la función debe ser lineal. Podemos definir un prior sobre la función, que es el prior gaussiano que define características como la suavidad de la función y todo.

Por lo tanto, no tenemos que definir explícitamente cuál debería ser el modelo. Sin embargo, tengo preguntas. Tenemos una probabilidad marginal y al usarla podemos ajustar los parámetros de la función de covarianza del previo gaussiano. Entonces, esto es similar a definir el tipo de función que debería ser, ¿no?

Se reduce a lo mismo que define los parámetros, aunque en GP son hiperparámetros. Por ejemplo, en este documento . Han definido que la función media del GP es algo así como

metro(X)=unaX2+siX+Ces decir, un polinomio de segundo orden.

Definitivamente, el modelo / función está definido, ¿no? Entonces, ¿cuál es la diferencia en la definición de la función para ser lineal como en el LR?

Simplemente no entendí cuál es el beneficio de usar GP

usuario34790
fuente

Respuestas:

7

Recordemos algunas fórmulas sobre la regresión del proceso gaussiano. Supongamos que tenemos una muestra . Para este ejemplo, loglikelihood tiene la forma: donde es la matriz de covarianza de muestra. Allí es una función de covarianza con parámetros que ajustamos usando la maximización de loglikelihood. La predicción (media posterior) para un nuevo punto tiene la forma: allí L = - 1re=(X,y)={(Xyo,yyo)}yo=1norteK={k(xi,xj)} N i , j = 1 k(xi,xj)x y (x)=kK-1y,k={k(x,

L=-12(Iniciar sesiónEl |KEl |+yTK-1y),
K={k(Xyo,Xj)}yo,j=1nortek(Xyo,Xj)X
y^(X)=kK-1y,
k={k(X,Xyo)}yo=1norte es un vector de covarianzas entre nuevos puntos y puntos de muestra.

Ahora tenga en cuenta que la regresión de procesos gaussianos puede modelar modelos lineales exactos. Suponga que la función de covarianza tiene la forma . En este caso, la predicción tiene la forma: La identidad es verdadera en caso de que sea ​​no singular, lo cual no es el caso, pero este no es un problema en caso de que usemos la regularización de la matriz de covarianza. Entonces, el lado derecho es la fórmula exacta para la regresión lineal, y podemos hacer una regresión lineal con procesos gaussianos usando la función de covarianza adecuada.k(Xyo,Xj)=XyoTXj

y^(X)=XTXT(XXT)-1y=XT(XTX)-1XTy.
(XXT)-1

Ahora consideremos una regresión de procesos gaussianos con otra función de covarianza (por ejemplo, función de covarianza exponencial al cuadrado de la forma , es una matriz de hiperparámetros que ajustamos). Obviamente, en este caso la media posterior no es una función lineal (ver imagen).Exp(-(Xyo-Xj)TUNA-1(Xyo-Xj))UNA

ingrese la descripción de la imagen aquí.

Por lo tanto, el beneficio es que podemos modelar funciones no lineales utilizando una función de covarianza adecuada (podemos seleccionar una función de vanguardia, en la mayoría de los casos la función de covarianza exponencial al cuadrado es una opción bastante buena). La fuente de la no linealidad no es el componente de tendencia que mencionó, sino la función de covarianza.

Alexey Zaytsev
fuente
3
Yo diría que este es solo uno de los beneficios de GP con el que también se comparte con otros métodos de kernel. Ser probabilístico y provenir del marco bayesiano es otra ventaja de GP.
Seeda
2

XFF(X)

metrounaXFXFμΣ (incertidumbre), lo que permite, por ejemplo, optimizar costosas funciones de caja negra.

Tomasz Bartkowiak
fuente