Esto puede sonar tonto para alguien que tiene mucha experiencia con las redes neuronales, pero me molesta ...
Me refiero a que aleatorizar los pesos iniciales podría brindarle mejores resultados que estarían algo más cerca de lo que debería ser una red entrenada, pero también podría ser exactamente lo contrario de lo que debería ser, mientras que 0.5 u otro promedio para el rango de peso razonable el valor sonaría como una buena configuración predeterminada ...
¿Por qué los pesos iniciales de las neuronas se aleatorizan en lugar de 0.5 para todos ellos?
neural-networks
training
Matas Vaitkevicius
fuente
fuente
Respuestas:
Los pesos iniciales en una red neuronal se inicializan aleatoriamente porque los métodos basados en gradientes comúnmente utilizados para entrenar redes neuronales no funcionan bien cuando todos los pesos se inicializan al mismo valor. Si bien no todos los métodos para entrenar redes neuronales se basan en gradientes, la mayoría lo son, y se ha demostrado en varios casos que la inicialización de la red neuronal al mismo valor hace que la red tarde mucho más en converger en una solución óptima. Además, si desea volver a entrenar su red neuronal porque se atascó en un mínimo local, se quedará atascado en el mismo mínimo local. Por las razones anteriores, no establecemos los pesos iniciales en un valor constante.
Referencias: ¿Por qué no funciona la propagación hacia atrás cuando inicializa los pesos con el mismo valor?
fuente
No debe asignar todo a 0.5 porque tendría el problema de "romper simetría".
fuente
Esa es una pregunta muy profunda. Recientemente hubo una serie de documentos con prueba de convergencia del descenso de gradiente para una red profunda sobreparamizada (por ejemplo, Gradient Descent Finds Global Minima of Deep Neural Networks , A Convergence Theory for Deep Learning via Over-Parameterization o Stochastic Gradient Descent Optimized Over-parametered Deep) Redes ReLU ). Todos ellos condicionan la prueba de distribución aleatoria gaussiana de pesos. Es importante que las pruebas dependan de dos factores:
Los pesos aleatorios hacen que el mapeo estadísticamente compresivo de ReLU (hasta la transformación lineal)
Los pesos aleatorios preservan la separación de la entrada para cualquier distribución de entrada, es decir, si las muestras de entrada son distinguibles, la propagación de la red no las hará indistinguibles
Esas propiedades muy difíciles de reproducir con matrices deterministas, e incluso si son reproducibles con matrices deterministas, el espacio NULL (dominio de ejemplos adversos) probablemente haría que el método fuera poco práctico, y la preservación más importante de esas propiedades durante el descenso del gradiente probablemente haría que el método fuera poco práctico. Pero en general es muy difícil pero no imposible, y puede justificar una investigación en esa dirección. En una situación análoga, hubo algunos resultados para la propiedad de isometría restringida para matrices deterministas en detección comprimida .
fuente