Tomé el curso de Andrew Ng "Machine Learning" a través de Coursera hace unos meses, sin prestar atención a la mayoría de las matemáticas / derivaciones y, en cambio, centrándome en la implementación y la practicidad. Desde entonces, he comenzado a volver a estudiar algunas de las teorías subyacentes y he revisado algunas de las conferencias del profesor Ng. Estaba leyendo su conferencia sobre "Regresión lineal regularizada" y vi que tenía la siguiente función de costo:
Luego, da el siguiente gradiente para esta función de costo:
Estoy un poco confundido acerca de cómo pasa de uno a otro. Cuando intenté hacer mi propia derivación, obtuve el siguiente resultado:
La diferencia es el signo 'más' entre la función de costo original y el parámetro de regularización en la fórmula del Prof. Ng que cambia a un signo 'menos' en su función de gradiente, mientras que eso no está sucediendo en mi resultado.
Intuitivamente entiendo por qué es negativo: estamos reduciendo el parámetro theta por la figura de gradiente, y queremos que el parámetro de regularización reduzca la cantidad que estamos cambiando el parámetro para evitar el sobreajuste. Estoy un poco atascado en el cálculo que respalda esta intuición.
Para su información, puede encontrar el mazo aquí , en las diapositivas 15 y 16.
fuente
Respuestas:
Ahora
Tenga en cuenta que en un modelo lineal (discutido en las páginas que menciona),∂∂θj(hθ(x(i))=[x(i)]j
Entonces para el caso lineal
Parece que quizás tú y Andrew podrían tener errores tipográficos. Bueno, al menos dos de los tres parecemos.
fuente
En realidad, si revisa las notas de clase justo después del video, muestra la fórmula correctamente. Las diapositivas que ha alineado aquí muestran la diapositiva exacta del video.
fuente
En realidad, creo que es solo un error tipográfico.
En la diapositiva n. ° 16, escribe la derivada de la función de costo (con el término de regularización) con respecto a theta, pero está en el contexto del algoritmo de Descenso de gradiente . Por lo tanto, también está multiplicando esta derivada por . Aviso: en la segunda línea (de la diapositiva 16) tiene (como ha escrito), multiplicado por . Sin embargo, en la tercera línea, el término multiplicado sigue siendo negativo aunque, si la segunda línea fuera correcta, los signos negativos se habrían cancelado.- λ θ - α−α −λθ −α
¿Tener sentido?
fuente