Tengo dificultad para derivar el hessiano de la función objetivo, , en regresión logística donde es:
es una función logística. El Hessian es . Traté de deducirlo calculando , pero entonces no era obvio para mí como llegar a la notación de matriz a partir de .
¿Alguien sabe alguna forma limpia y fácil de derivar ?
Respuestas:
Aquí deduzco todas las propiedades e identidades necesarias para que la solución sea autónoma, pero aparte de eso, esta derivación es limpia y fácil. Formalicemos nuestra notación y escribamos la función de pérdida un poco más compacta. Considerem muestras {xi,yi} tal que xi∈Rd y yi∈R . Recuerde que en la regresión logística binaria típicamente tenemos la función de hipótesis hθ ser la función logística. Formalmente
dondeω∈Rd y zi=ωTxi . La función de pérdida (que creo que a los OP les falta un signo negativo) se define como:
Hay dos propiedades importantes de la función logística que obtengo aquí para referencia futura. Primero, tenga en cuenta que1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) .
También tenga en cuenta que
En lugar de tomar derivados con respecto a componentes, aquí trabajaremos directamente con vectores (puede revisar derivados con vectores aquí ). La arpillera de la función de pérdidal(ω) viene dada por ∇⃗ 2l(ω) , pero primero recuerde que ∂z∂ω=xTω∂ω=xT y∂z∂ωT=∂ωTx∂ωT=x .
Letli(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)) . Using the properties we derived above and the chain rule
It's now trivial to show that
whew!
Our last step is to compute the Hessian
Form samples we have ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)) . This is equivalent to concatenating column vectors xi∈Rd into a matrix X of size d×m such that ∑mi=1xixTi=XXT . The scalar terms are combined in a diagonal matrix D such that Dii=σ(zi)(1−σ(zi)) . Finally, we conclude that
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show thatl(ω) is convex. Let δ be any vector such that δ∈Rd . Then
sinceD>0 and ∥δTX∥≥0 . This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).
fuente