Dudas sobre la derivación de ecuaciones de regresión de procesos gaussianas en un artículo

9

Estoy leyendo esta preimpresión en papel , y tengo dificultades para seguir su derivación de las ecuaciones para la regresión del proceso gaussiano. Utilizan la configuración y la notación de Rasmussen y Williams . Por lo tanto, se supone un aditivo, de media cero, estacionario y normalmente distribuido con varianza :σnoise2

y=f(x)+ϵ,ϵN(0,σnoise2)

Se supone un GP anterior con media cero para , lo que significa que , es un vector gaussiano con media 0 y matriz de covarianzaf(x) dNf={f(x1),,f(xd)}

Σd=(k(x1,x1)k(x1,xd)k(xd,x1)k(xd,xd))

De ahora en adelante, suponemos que se conocen hiperparámetros. Entonces la ecuación (4) del artículo es obvia:

p(f,f)=N(0,(Kf,fKf,fKf,fKf,f))

Aquí vienen las dudas:

  1. Ecuación (5):

    p(y|f)=N(f,σnoise2I)

    , pero supongo que E [ y | f ] = f0 porque cuando condiciono f , entonces dondees un vector constante y solo es al azar ¿Correcto?E[f]=0E[y|f]=f0fc ϵy=c+ϵcϵ

  2. De todos modos, es la ecuación (6) que es más oscura para mí:

    p(f,f|y)=p(f,f)p(y|f)p(y)

    Esa no es la forma habitual del teorema de Bayes. El teorema de Bayes sería

    p(f,f|y)=p(f,f)p(y|f,f)p(y)

    Entiendo por qué las dos ecuaciones son las mismas: intuitivamente, el vector de respuesta depende solo del vector latente correspondiente , condicionándose así a o a debería conducir a la misma distribución. Sin embargo, esto es una intuición, no una prueba. ¿Puedes ayudarme a mostrar por qué?f f ( f , f )yff(f,f)

    p(y|f,f)=p(y|f)
DeltaIV
fuente

Respuestas:

1
  1. Si arreglamos , entonces toda la incertidumbre en proviene del ruido. Entonces, para la ecuación (5) en el artículo tenemos que dado tenemos en cada punto ruido independiente con varianza y media cero . Agregamos la media inicial y obtenemos la respuesta.y f σ 2 n o i s e 0fyfσnoise20
  2. Una forma de demostrar la igualdad sugerida es encontrar la distribución en el lado izquierdo y el lado derecho de la calidad. Ambos son gaussianos, para el lado izquierdo ya sabemos la respuesta. Para el lado derecho procedemos de manera similar. Encontremos la distribución condicional para . Del resultado de la primera parte sabemos: Usando reglas de probabilidad es fácil integrar desde( y , y ) p ( y , y| f , f ) = N ( ( f , f ) , σ 2 n o i s e I ) . y ( y , y
    p(y|f,f)=p(y|f)
    (y,y)
    p(y,y|f,f)=N((f,f),σnoise2I).
    yy y p ( y | f , f ) = N ( f , σ 2 n o i s e I ) = p ( y | f ) .(y,y), ya que la matriz de covarianza es diagonal, y los vectores y son independientes. Al hacer esto obtenemos: yy
    p(y|f,f)=N(f,σnoise2I)=p(y|f).
Alexey Zaytsev
fuente