Derivación de la función de costo de regresión lineal regularizada por curso Curso de aprendizaje automático

12

Tomé el curso de Andrew Ng "Machine Learning" a través de Coursera hace unos meses, sin prestar atención a la mayoría de las matemáticas / derivaciones y, en cambio, centrándome en la implementación y la practicidad. Desde entonces, he comenzado a volver a estudiar algunas de las teorías subyacentes y he revisado algunas de las conferencias del profesor Ng. Estaba leyendo su conferencia sobre "Regresión lineal regularizada" y vi que tenía la siguiente función de costo:

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

Luego, da el siguiente gradiente para esta función de costo:

θjJ(θ)=1m[i=1m(hθ(x(i))y(i))xj(i)λθj]

Estoy un poco confundido acerca de cómo pasa de uno a otro. Cuando intenté hacer mi propia derivación, obtuve el siguiente resultado:

θjJ(θ)=1m[i=1m(hθ(x(i))+y(i))xj(i)+λθj]

La diferencia es el signo 'más' entre la función de costo original y el parámetro de regularización en la fórmula del Prof. Ng que cambia a un signo 'menos' en su función de gradiente, mientras que eso no está sucediendo en mi resultado.

Intuitivamente entiendo por qué es negativo: estamos reduciendo el parámetro theta por la figura de gradiente, y queremos que el parámetro de regularización reduzca la cantidad que estamos cambiando el parámetro para evitar el sobreajuste. Estoy un poco atascado en el cálculo que respalda esta intuición.

Para su información, puede encontrar el mazo aquí , en las diapositivas 15 y 16.

Wellington
fuente
1
En su resultado, tiene un " + " antes del y ^ (i) - ¿es eso un error tipográfico?
Steve S

Respuestas:

12

J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθj2]

Ahora

θj(hθ(x(i))y(i))2=2[(hθ(x(i))y(i))θj{hθ(x(i))}]

Tenga en cuenta que en un modelo lineal (discutido en las páginas que menciona),θj(hθ(x(i))=[x(i)]j

θjλj=1nθ2=2λθj

Entonces para el caso lineal

θjJ(θ)=1m[i=1m(hθ(x(i))y(i))xj(i)+λθj]

Parece que quizás tú y Andrew podrían tener errores tipográficos. Bueno, al menos dos de los tres parecemos.

Glen_b -Reinstate a Monica
fuente
está confirmado, solo un error tipográfico en la nota de Andrew, debería ser un signo +. Y el profesor explica correctamente todo correctamente, incluida la intuición θ (1-α (λ / m)), lo que significa que cada vez que se reduce θ, menos la parte habitual antes de introducir la regularización.
Gob00st
4

En realidad, si revisa las notas de clase justo después del video, muestra la fórmula correctamente. Las diapositivas que ha alineado aquí muestran la diapositiva exacta del video.

ingrese la descripción de la imagen aquí

Piyush
fuente
coursera.org/learn/machine-learning/supplement/pKAsc/… aquí está el enlace a las notas justo después del video que muestra la fórmula correcta.
Gob00st
1

En realidad, creo que es solo un error tipográfico.

En la diapositiva n. ° 16, escribe la derivada de la función de costo (con el término de regularización) con respecto a theta, pero está en el contexto del algoritmo de Descenso de gradiente . Por lo tanto, también está multiplicando esta derivada por . Aviso: en la segunda línea (de la diapositiva 16) tiene (como ha escrito), multiplicado por . Sin embargo, en la tercera línea, el término multiplicado sigue siendo negativo aunque, si la segunda línea fuera correcta, los signos negativos se habrían cancelado.- λ θ - ααλθα

¿Tener sentido?

Steve S
fuente