Es bastante intuitivo que la mayoría de las topologías / arquitecturas de redes neuronales no son identificables. Pero, ¿cuáles son algunos resultados bien conocidos en el campo? ¿Existen condiciones simples que permiten / evitan la identificabilidad? Por ejemplo,
- todas las redes con funciones de activación no lineales y más de una capa oculta no son identificables
- todas las redes con más de dos unidades ocultas no son identificables
O cosas como estas. NOTA : No estoy diciendo que estas condiciones impidan la identificabilidad (aunque me parecen muy buenas candidatas). Son solo ejemplos de lo que quiero decir con "condiciones simples".
Si ayuda a reducir la pregunta, siéntase libre de considerar solo las arquitecturas recurrentes y de avance. Si esto todavía no es suficiente, estaría satisfecho con una respuesta que cubra al menos una arquitectura entre MLP, CNN y RNN. Eché un vistazo rápido en la Web, pero parece que la única discusión que pude encontrar fue en Reddit. Vamos, gente, podemos hacerlo mejor que Reddit ;-)
Respuestas:
Los FFN lineales de una sola capa no están identificados
La pregunta como se ha editado para excluir este caso; Lo conservo aquí porque entender el caso lineal es un ejemplo simple del fenómeno de interés.
Considere una red neuronal de avance con 1 capa oculta y todas las activaciones lineales. La tarea es una simple tarea de regresión de OLS.
Entonces tenemos el modeloy^=XAB y el objetivo es
para alguna elección de de forma apropiada. son los pesos de entrada a oculto, y son los pesos de oculto a salida.A,B A B
Claramente, los elementos de las matrices de peso no son identificables en general, ya que hay varias configuraciones posibles para las cuales dos pares de matrices tienen el mismo producto.A,B
Los FFN no lineales de una sola capa aún no están identificados
A partir de la FFN lineal de una sola capa, también podemos observar la no identificabilidad en la FFN no lineal de una sola capa.
Como ejemplo, agregar una no tan linealidad a cualquiera de las activaciones lineales crea una red no lineal. Esta red aún no está identificada, porque para cualquier valor de pérdida, una permutación de los pesos de dos (o más) neuronas en una capa, y sus neuronas correspondientes en la capa siguiente, también dará como resultado el mismo valor de pérdida.tanh
En general, las redes neuronales no están identificadas
Podemos usar el mismo razonamiento para mostrar que las redes neuronales no están identificadas en todas las parametrizaciones, excepto en las muy particulares.
Por ejemplo, no hay una razón particular por la que los filtros convolucionales deben ocurrir en un orden particular. Tampoco se requiere que los filtros convolucionales tengan algún signo en particular, ya que los pesos posteriores podrían tener el signo opuesto para "revertir" esa elección.
Del mismo modo, las unidades en un RNN se pueden permutar para obtener la misma pérdida.
Ver también: ¿Podemos usar MLE para estimar los pesos de la red neuronal?
fuente
Hay al menosÓptima global cuando se ajusta una red neuronal de 1 capa, constituida por neuronas. Esto se debe al hecho de que, si intercambia dos neuronas en un nivel específico, y luego intercambia los pesos atribuidos a estas neuronas en el siguiente nivel, obtendrá exactamente el mismo ajuste.n! n
fuente