Tratando de entender el proceso gaussiano

9

Estoy leyendo el libro GPML y en el Capítulo 2 (página 15) , me dice cómo hacer una regresión usando el Proceso Gaussiano (GP), pero me cuesta entender cómo funciona.

En la inferencia bayesiana para modelos paramétricos, primero elegimos un previo en los parámetros del modelo θ, es decir p(θ); segundo, dados los datos de entrenamientoD, calculamos la probabilidad p(D|θ); y finalmente tenemos la parte posterior deθ como p(θ|D), que se utilizará en la distribución predictiva

p(y|x,D)=p(y|x,θ)p(θ|D)dθ
, y lo anterior es lo que hacemos en inferencia bayesiana para modelos paramétricos, ¿verdad?

Bueno, como se dice en el libro, GP no es paramétrico, y hasta donde yo entiendo, después de especificar la función media m(x)y la función de covarianza k(x,x), tenemos una función GP over f,

fGP(m,k)
, y este es el previo def. Ahora tengo un conjunto de datos de entrenamiento sin ruido
D={(x1,f1),...,(xn,fn)}
, Pensé que debería calcular la probabilidad p(D|f)y luego el posterior p(f|D), y finalmente use la parte posterior para hacer predicciones.

¡SIN EMBARGO, eso no es lo que hace el libro! Quiero decir, después de especificar el previop(f), no calcula la probabilidad y la posterior, sino que va directamente a la predicción predictiva.

Pregunta:

1) ¿Por qué no calcular la probabilidad y posterior? ¿Solo porque GP no es paramétrico, entonces no hacemos eso?

2) Como se hace en el libro (página 15 ~ 16), deriva la distribución predictiva a través de la distribución conjunta del conjunto de datos de entrenamientof y conjunto de datos de prueba f, que se denomina conjunto previo . Muy bien, esto me confunde mucho, ¿por qué juntarlos?

3) Vi algunos artículos llamar fla variable latente , ¿por qué?

aguacate
fuente
Personalmente, no creo que la regresión GP pertenezca a la inferencia bayesiana, ya que no sigue los pasos del enfoque bayesiano. La llamada distribución predictiva en GP se deriva de unir los datos de entrenamiento y prueba en el anterior , y luego condicionando los datos de entrenamiento, no hace uso de probabilidad o posterior.
aguacate

Respuestas:

2

y lo anterior es lo que hacemos en inferencia bayesiana para modelos paramétricos, ¿verdad?

El libro está usando el promedio de modelo bayesiano, que es el mismo para los modelos paramétricos o cualquier otro método bayesiano, dado que tiene un valor posterior sobre sus parámetros.

Ahora tengo un conjunto de datos de entrenamiento sin ruido

No necesita ser 'sin ruido'. Ver páginas posteriores.

¡SIN EMBARGO, eso no es lo que hace el libro! Quiero decir, después de especificar la p (f) anterior, no calcula la probabilidad y la posterior, sino que simplemente va directamente a la predicción predictiva.

Vea esto: https://people.cs.umass.edu/~wallach/talks/gp_intro.pdf

Creo que en la página 17 tenemos la probabilidad anterior y posterior. Creo que si escribe las derivaciones y encuentra el posterior, y luego promedia sobre el posterior para la predicción (como en la vista del espacio de peso) dará como resultado las mismas ecuaciones que en la página 19 para la media y la covarianza.

Daniel
fuente
Gracias por su respuesta, pero ya he visto que muchos libros no mencionan Bayesian en absoluto, solo calculan la distribución condicional p(f|f), y digamos que esto es lo posterior, ¿qué demonios?
aguacate
Encontrar el condicional es básicamente usar la fórmula de Bayes. Escribir cosas en la formulación bayesiana convencional es un poco engorroso para los médicos generales; solo se refieren a encontrar el condicional y ...
Daniel
AFAIK, el condicional se calcula de esta manera, p(x|y)=p(x,y)/p(y), pero la fórmula de Bayes es p(x|y)=p(y|x)p(x)/p(y). No veo por qué encontrar condicional está usando la fórmula de Bayes, ¿podría ser más específico?
aguacate
Y como dijiste en el comentario, "escribir cosas en la formulación bayesiana convencional es engorroso para los médicos de familia", por formulación bayesiana convencional , ¿querías decir, primero computar la parte posteriorp(f|D), luego calcule la distribución predictiva p(f|D)=p(f|f)p(f|D)df.
aguacate