Problema de juguete de regresión de proceso gaussiano

9

Estaba tratando de ganar algo de intuición para la regresión del Proceso Gaussiano, así que hice un simple problema de juguete 1D para probar. Tomé como las entradas, y como las respuestas. ('Inspirado' de )Xyo={1,2,3}y = x 2yyo={1,4 4,9 9}y=X2

Para la regresión, utilicé una función de kernel exponencial cuadrática estándar:

k(xp,xq)=σf2exp(12l2|xpxq|2)

Supuse que había ruido con desviación estándar , por lo que la matriz de covarianza se convirtió en:σn

Kpq=k(xp,xq)+σn2δpq

Los hiperparámetros se estimaron maximizando la probabilidad logarítmica de los datos. Para hacer una predicción en un punto , encontré la media y la varianza respectivamente por lo siguiente(σn,l,σf)x

μx=kT(K+σn2I)1y
σx2=k(X,X)-kT(K+σnorte2yo)-1k

donde es el vector de la covarianza entre y las entradas, e es un vector de las salidas.kXy

Mis resultados para se muestran a continuación. La línea azul es la media y las líneas rojas marcan los intervalos de desviación estándar.1<X<3

Los resultados

Sin embargo, no estoy seguro de si esto es correcto; mis entradas (marcadas con 'X') no se encuentran en la línea azul. La mayoría de los ejemplos que veo tienen la media de intersección de las entradas. ¿Es esta una característica general que se espera?

Comp_Warrior
fuente
1
Si tuviera que adivinar, en los ejemplos que estaba viendo no había ningún error residual. En ese caso, la línea pasaría por todos los puntos.
chico
@Guy exactamente correcto.

Respuestas:

10

La función media que pasa por los puntos de datos suele ser una indicación de sobreajuste. La optimización de los hiperparámetros al maximizar la probabilidad marginal tenderá a favorecer modelos muy simples a menos que haya suficientes datos para justificar algo más complejo. Como solo tiene tres puntos de datos, que están más o menos en una línea con poco ruido, el modelo que he encontrado me parece bastante razonable. Esencialmente, los datos pueden explicarse como una función subyacente lineal con ruido moderado, o una función subyacente moderadamente no lineal con poco ruido. La primera es la más simple de las dos hipótesis, y es favorecida por la "navaja de afeitar de Occam".

Dikran Marsupial
fuente
Gracias por el aporte. ¿Me puede decir más acerca de "ajuste excesivo"; ¿Es una característica positiva / negativa?
Comp_Warrior
El ajuste excesivo es algo negativo, básicamente significa que el modelo está memorizando la variación aleatoria en los datos, lo que tiende a empeorar el rendimiento de la generalización. Idealmente, desea que el modelo aprenda la forma subyacente de los datos mientras ignora el ruido que los contamina. La mayoría de los buenos libros de texto de aprendizaje automático cubrirán esto en un capítulo temprano.
Dikran Marsupial
solo por interés, ¿por qué el voto negativo?
Dikran Marsupial
No te menosprecié; De hecho, he votado!
Comp_Warrior
2
no hay problema Comp_Warrior, no pensé que eras tú, pero alguien rechazó mi respuesta y me complacería recibir comentarios sobre por qué. Todos somos falibles y si tengo algo mal en mi respuesta, estoy dispuesto a corregirlo.
Dikran Marsupial
7

Está utilizando los estimadores de Kriging con la adición de un término de ruido (conocido como efecto de pepita en la literatura del proceso gaussiano). Si el término de ruido se estableció en cero, es decir,

σnorte2δpagq=0 0

entonces sus predicciones actuarían como una interpolación y pasarían por los puntos de datos de muestra.


fuente
3

Esto me parece bien, en el libro GP de Rasmussen definitivamente muestra ejemplos en los que la función media no pasa por cada punto de datos. Tenga en cuenta que la línea de regresión es una estimación de la función subyacente, y suponemos que las observaciones son los valores de la función subyacente más algo de ruido. Si la línea de regresión se basa en los tres puntos, esencialmente estaría diciendo que no hay ruido en los valores observados.

σnorte=0 0

l

ll

Como señaló Dikran Marsupial, esta es una característica incorporada de los procesos gaussianos, la probabilidad marginal penaliza los modelos que son demasiado específicos y prefiere los que pueden explicar muchos conjuntos de datos.

Max S.
fuente