Para poner la equivalencia con mayor precisión:
La optimización de los pesos del modelo para minimizar una función de pérdida de error al cuadrado con la regularización L2 es equivalente a encontrar los pesos que son más probables bajo una distribución posterior evaluada utilizando la regla de Bayes, con pesos gaussianos independientes de media cero antes
Prueba:
La función de pérdida como se describió anteriormente estaría dada por
L=[∑n=1N(y(n)−fw(x(n)))2]Originallossfunction+λ∑i=1Kw2iL2loss
Tenga en cuenta que la distribución para un gaussiano multivariante es
N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Usando la regla de Bayes, tenemos que
p(w|D)=p(D|w)p(w)p(D)∝p(D|w)p(w)∝[∏nNN(y(n);fw(x(n)),σ2y)]N(w;0,σ2wI)∝∏nNN(y(n);fw(x(n)),σ2y)∏i=1KN(wi;0,σ2w)
Donde podemos dividir el Guassian multidimensional en un producto, porque la covarianza es un múltiplo de la matriz de identidad.
Tome la probabilidad de registro negativa
−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Por supuesto, podemos soltar la constante y multiplicar por cualquier cantidad sin afectar fundamentalmente la función de pérdida. (constante no hace nada, la multiplicación efectivamente escala la tasa de aprendizaje. No afectará la ubicación de los mínimos) Por lo tanto, podemos ver que la probabilidad logarítmica negativa de la distribución posterior es una función de pérdida equivalente a la función de pérdida de error cuadrada regularizada L2.
Este equilibrio general es general y se aplica a cualquier función parametrizada de pesos, no solo a la regresión lineal, como parece estar implicado anteriormente.
D dimension
caso de regresión lineal, ¿puedenbeta
ysigma
tienen soluciones explícitas? Estoy leyendo PRML y encuentro la ecuación (1.67) en la página 30 y no tengo idea de cómo resolverla. Con la máxima probabilidad, resolvemosbeta
y luegosigma
ajustamos el gradiente a cero. En el cuadrado mínimo regularizado, dado que se conoce el parámetro de reqularización, algunoslambda
lo resolvemosbeta
directamente. Pero si resolvemos directamente el MAP, ¿cuál es el fin de resolverbeta
,sigma
? ¿Pueden tener una solución explícita o debemos usar un proceso iterativo?