Identificabilidad de modelos de redes neuronales

8

Es bastante intuitivo que la mayoría de las topologías / arquitecturas de redes neuronales no son identificables. Pero, ¿cuáles son algunos resultados bien conocidos en el campo? ¿Existen condiciones simples que permiten / evitan la identificabilidad? Por ejemplo,

  • todas las redes con funciones de activación no lineales y más de una capa oculta no son identificables
  • todas las redes con más de dos unidades ocultas no son identificables

O cosas como estas. NOTA : No estoy diciendo que estas condiciones impidan la identificabilidad (aunque me parecen muy buenas candidatas). Son solo ejemplos de lo que quiero decir con "condiciones simples".

Si ayuda a reducir la pregunta, siéntase libre de considerar solo las arquitecturas recurrentes y de avance. Si esto todavía no es suficiente, estaría satisfecho con una respuesta que cubra al menos una arquitectura entre MLP, CNN y RNN. Eché un vistazo rápido en la Web, pero parece que la única discusión que pude encontrar fue en Reddit. Vamos, gente, podemos hacerlo mejor que Reddit ;-)

DeltaIV
fuente
1
¿Cuál es el propósito de este ejercicio académico?
Aksakal
1
¿Puedo preguntar qué consideró / examinó de la literatura existente? Esto parece una pregunta muy específica; Las muy pocas referencias relevantes que he visto asociadas en la literatura de identificación del sistema en lugar de ML estándar (por ejemplo , 1 , 2 , 3 ). ¿Puede definir su pregunta un poco más en el contexto de ML? La identificabilidad es principalmente un aspecto de los Sistemas de Control; ¿te estás refiriendo a la relación 1-1?
usεr11852
Creo que debería poder probar fácilmente estos resultados utilizando el teorema de la función implícita.
Alex R.
1
@Aksakal ¿cuál es el propósito de calcular la probabilidad de que la urna esté vacía al mediodía, después de infinitos pasos en los que se agregan 10 bolas y se retira una? . Nadie, pero la pregunta fue divertida. No todas las preguntas deben tener relevancia práctica para que valga la pena responderlas. O podría decir que la falta de identificabilidad le impide hacer inferencias precisas sobre los pesos NN, pero eso sería una justificación falsa porque casi nadie está interesado ...
DeltaIV
3
@DeltaIV, es una pregunta válida para CV. El problema es que a nadie le importa pensar en estas cosas, me temo. Todos están ocupados construyendo modelos y ganando dinero, cuando los modelos dejan de funcionar, es cuando los pensadores de IA desempleados reflexionarán sobre la identificabilidad
Aksakal

Respuestas:

3

Los FFN lineales de una sola capa no están identificados

La pregunta como se ha editado para excluir este caso; Lo conservo aquí porque entender el caso lineal es un ejemplo simple del fenómeno de interés.

Considere una red neuronal de avance con 1 capa oculta y todas las activaciones lineales. La tarea es una simple tarea de regresión de OLS.

Entonces tenemos el modelo y^=XAB y el objetivo es

minA,B12||yXAB||22

para alguna elección de de forma apropiada. son los pesos de entrada a oculto, y son los pesos de oculto a salida.A,BAB

Claramente, los elementos de las matrices de peso no son identificables en general, ya que hay varias configuraciones posibles para las cuales dos pares de matrices tienen el mismo producto.A,B

Los FFN no lineales de una sola capa aún no están identificados

A partir de la FFN lineal de una sola capa, también podemos observar la no identificabilidad en la FFN no lineal de una sola capa.

Como ejemplo, agregar una no tan linealidad a cualquiera de las activaciones lineales crea una red no lineal. Esta red aún no está identificada, porque para cualquier valor de pérdida, una permutación de los pesos de dos (o más) neuronas en una capa, y sus neuronas correspondientes en la capa siguiente, también dará como resultado el mismo valor de pérdida.tanh

En general, las redes neuronales no están identificadas

Podemos usar el mismo razonamiento para mostrar que las redes neuronales no están identificadas en todas las parametrizaciones, excepto en las muy particulares.

Por ejemplo, no hay una razón particular por la que los filtros convolucionales deben ocurrir en un orden particular. Tampoco se requiere que los filtros convolucionales tengan algún signo en particular, ya que los pesos posteriores podrían tener el signo opuesto para "revertir" esa elección.

Del mismo modo, las unidades en un RNN se pueden permutar para obtener la misma pérdida.

Ver también: ¿Podemos usar MLE para estimar los pesos de la red neuronal?

Sycorax dice reinstalar a Mónica
fuente
Estaba excluyendo específicamente este caso (funciones de activación lineal) en los comentarios a mi pregunta, porque es trivial obtener un modelo identificable, comenzando por este, que da exactamente las mismas predicciones , con una simple reparametrización. No es "intrínsecamente no identificable", por así decirlo. Entonces me refería específicamente a las funciones de activación no lineal. Pero creo que debería incluir eso en mi pregunta, no solo dejarlo en los comentarios. En unas horas modificaré mi pregunta en consecuencia.
DeltaIV
Es una buena práctica editar su pregunta para aclarar lo que le interesa saber.
Sycorax dice Reinstate Monica
tienes razón, generalmente lo hago, pero esta vez lo olvidé. Culpa mía.
DeltaIV
4

Hay al menosÓptima global cuando se ajusta una red neuronal de 1 capa, constituida por neuronas. Esto se debe al hecho de que, si intercambia dos neuronas en un nivel específico, y luego intercambia los pesos atribuidos a estas neuronas en el siguiente nivel, obtendrá exactamente el mismo ajuste.n!n

RUser4512
fuente