Hay un hilo similar aquí (¿ La función de costo de la red neuronal no es convexa? ) Pero no pude entender los puntos en las respuestas allí y mi razón para preguntar nuevamente con la esperanza de que esto aclare algunos problemas:
Si estoy usando la función de suma de costo de diferencia al cuadrado, finalmente estoy optimizando algo de la forma donde es el valor real de la etiqueta durante el entrenamiento fase y es el valor de etiqueta predicho. Como tiene una forma cuadrada, debería ser una función de costo convexa. Entonces, ¿qué es lo que podría hacerlo no convexo en un NN? y y
Respuestas:
Por ejemplo, consideremos una red con 1 capa oculta denorte unidades y una capa de salida lineal: nuestra función de costo es
Ahora defina una función por donde es con establecido en y establecido en . Esto nos permite visualizar la función de costo ya que estos dos pesos varían. h ( u , v ) = g ( α , W ( u , v ) ) W ( u , v ) W W 11 u W 12 vh:R×R→R h(u,v)=g(α,W(u,v)) W(u,v) W W11 u W12 v
La figura siguiente muestra esto para la función de activación sigmoidea con , y (por lo que es una arquitectura extremadamente simple). Todos los datos (tanto como ) son iid , al igual que los pesos que no varían en la función de trazado. Puedes ver la falta de convexidad aquí.p = 3 N = 1 x y N ( 0 , 1 )n=50 p=3 N=1 x y N(0,1)
Aquí está el código R que usé para hacer esta figura (aunque algunos de los parámetros están en valores ligeramente diferentes ahora que cuando lo hice para que no sean idénticos):
fuente