Mi maestro demostró que la segunda derivada de la entropía cruzada siempre es positiva, por lo que la función de costo de las redes neuronales que usan entropía cruzada es convexa. ¿Es esto cierto? Estoy bastante confundido acerca de esto porque siempre he aprendido que la función de costo de ANN no es convexa. ¿Alguien puede confirmar esto? ¡Muchas gracias! http://z0rch.com/2014/06/05/cross-entropy-cost-function
neural-networks
convex
xuancanh
fuente
fuente
Respuestas:
La entropía cruzada de una familia exponencial es siempre convexa. Entonces, para una red neuronal multicapa que tiene entradasX pesas w y salida y y función de pérdida L
es convexo Sin embargo,
no va a ser convexo para los parámetros de la capa intermedia por las razones descritas por iamonaboat.
fuente
Lo que @ngiann dijo, e informalmente, si permutas las neuronas en la capa oculta y haces la misma permutación en los pesos de las capas adyacentes, entonces la pérdida no cambia.
Por lo tanto, si hay un mínimo global distinto de cero en función de los pesos, entonces no puede ser único ya que la permutación de los pesos da otro mínimo global. Por lo tanto, la función no es convexa.
La matriz de todas las segundas derivadas parciales (la arpillera) no es semidefinida positiva ni semidefinida negativa. Dado que la segunda derivada es una matriz, es posible que no sea una ni la otra.
fuente
Tiene razón al sospechar que el problema de optimización de ANN del problema de entropía cruzada no será convexo. Nota: estamos hablando de una red neuronal con función de activación no lineal en la capa oculta. Si no utiliza una función de activación no lineal, su ANN está implementando una función lineal y el problema se volverá convexo.
Entonces, la razón por la cual la optimización de la entropía cruzada de una ANN no es convexa es debido a la parametrización subyacente de la ANN. Si usa una red neuronal lineal, puede hacerla convexa (esencialmente se verá como una regresión logística que es un problema convexo).
fuente