¿La función de costo de entropía cruzada para la red neuronal es convexa?

9

Mi maestro demostró que la segunda derivada de la entropía cruzada siempre es positiva, por lo que la función de costo de las redes neuronales que usan entropía cruzada es convexa. ¿Es esto cierto? Estoy bastante confundido acerca de esto porque siempre he aprendido que la función de costo de ANN no es convexa. ¿Alguien puede confirmar esto? ¡Muchas gracias! http://z0rch.com/2014/06/05/cross-entropy-cost-function

xuancanh
fuente
55
Enlace roto?
ebb-earl-co

Respuestas:

7

La entropía cruzada de una familia exponencial es siempre convexa. Entonces, para una red neuronal multicapa que tiene entradasXpesas wy salida yy función de pérdida L

y2L

es convexo Sin embargo,

w2L

no va a ser convexo para los parámetros de la capa intermedia por las razones descritas por iamonaboat.

Neil G
fuente
5

Lo que @ngiann dijo, e informalmente, si permutas las neuronas en la capa oculta y haces la misma permutación en los pesos de las capas adyacentes, entonces la pérdida no cambia.

Por lo tanto, si hay un mínimo global distinto de cero en función de los pesos, entonces no puede ser único ya que la permutación de los pesos da otro mínimo global. Por lo tanto, la función no es convexa.

La matriz de todas las segundas derivadas parciales (la arpillera) no es semidefinida positiva ni semidefinida negativa. Dado que la segunda derivada es una matriz, es posible que no sea una ni la otra.

estoy en un bote
fuente
Si desea ser pedante en lugar de informal, la definición habitual de convexidad de la función no requiere un mínimo global único, por lo que la no unicidad de los mínimos no implica no convexidad. Sin embargo, permutar los pesos de esta manera tampoco cambia la salida real de su red, por lo que incluso sin convexidad, aún podría tener la propiedad de que su función de entrenamiento converge a la misma función cada vez. Apuesto a que hay una manera de romper esta simetría para ordenar los pesos sin arruinar otras propiedades de la función de pérdida.
Andrew Wagner
3

Tiene razón al sospechar que el problema de optimización de ANN del problema de entropía cruzada no será convexo. Nota: estamos hablando de una red neuronal con función de activación no lineal en la capa oculta. Si no utiliza una función de activación no lineal, su ANN está implementando una función lineal y el problema se volverá convexo.

Entonces, la razón por la cual la optimización de la entropía cruzada de una ANN no es convexa es debido a la parametrización subyacente de la ANN. Si usa una red neuronal lineal, puede hacerla convexa (esencialmente se verá como una regresión logística que es un problema convexo).

ngiann
fuente