¿Deberían considerarse las redes residuales profundas como un conjunto de redes?

12

La pregunta es sobre la arquitectura de Redes Residuales Profundas ( ResNets ). El modelo que ganó el primer lugar en el "Desafío de reconocimiento visual a gran escala 2015" (ILSVRC2015) en las cinco pistas principales:

Este trabajo se describe en el siguiente artículo:

Aprendizaje residual profundo para el reconocimiento de imágenes (2015, PDF)


El equipo de investigación de Microsoft (desarrolladores de ResNets: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun) en su artículo:

" Mapeos de identidad en redes residuales profundas (2016) "

declare que la profundidad juega un papel clave:

" Obtenemos estos resultados a través de un concepto simple pero esencial: profundizar. Estos resultados demuestran el potencial de superar los límites de la profundidad " .

También se enfatiza en su presentación (más profundo - mejor):

- "Un modelo más profundo no debería tener un error de entrenamiento superior".
- "ResNets más profundos tienen un error de entrenamiento más bajo y también un error de prueba más bajo".
- "ResNets más profundos tienen un error menor".
- "Todos se benefician más de características más profundas: ¡ganancias acumuladas!"
- "Más profundo aún es mejor".

Aquí está la estructura del residuo de 34 capas (para referencia): ingrese la descripción de la imagen aquí


Pero recientemente encontré una teoría que introduce una interpretación novedosa de redes residuales que muestra que son conjuntos exponenciales:

Las redes residuales son conjuntos exponenciales de redes relativamente poco profundas (2016)

Las redes profundas se describen como muchas redes poco profundas cuyas salidas se agrupan a varias profundidades. Hay una foto en el artículo. Lo adjunto con una explicación:

ingrese la descripción de la imagen aquíLas redes residuales se muestran convencionalmente como (a), que es una representación natural de la ecuación (1). Cuando expandimos esta formulación a la ecuación (6), obtenemos una vista desvelada de una red residual de 3 bloques (b). Desde este punto de vista, es evidente que las redes residuales tienen O (2 ^ n) rutas implícitas que conectan entrada y salida y que agregar un bloque duplica el número de rutas.

En conclusión del artículo se afirma:

No es la profundidad, sino el conjunto lo que fortalece las redes residuales . Las redes residuales superan los límites de la multiplicidad de red, no la profundidad de la red. Nuestra vista desvelada propuesta y el estudio de la lesión muestran que las redes residuales son un conjunto implícito de exponencialmente muchas redes. Si la mayoría de los caminos que contribuyen al gradiente son muy cortos en comparación con la profundidad general de la red, el aumento de la profundidad por sí solo no puede ser la característica clave de las redes residuales. Ahora creemos que la multiplicidad , la capacidad de expresión de la red en términos del número de rutas, juega un papel clave .

Pero es solo una teoría reciente que puede ser confirmada o refutada. A veces sucede que algunas teorías son refutadas y los artículos son retirados.


¿Deberíamos pensar en ResNets profundos como un conjunto después de todo? ¿El conjunto o la profundidad hacen que las redes residuales sean tan fuertes? ¿Es posible que incluso los propios desarrolladores no perciban lo que representa su propio modelo y cuál es el concepto clave en él?

Erba Aitbayev
fuente

Respuestas:

4

Imagina que un genio te concede tres deseos. Debido a que es un ambicioso investigador de aprendizaje profundo, su primer deseo es una solución perfecta para un NN de 1000 capas para Image Net, que aparece rápidamente en su computadora portátil.

Ahora, una solución inducida por genios no te da ninguna intuición de cómo podría interpretarse como un conjunto, pero ¿realmente crees que necesitas 1000 capas de abstracción para distinguir a un gato de un perro? Como se mencionan los autores del "documento conjunto", esto definitivamente no es cierto para los sistemas biológicos.

Por supuesto, podría desperdiciar su segundo deseo en una descomposición de la solución en un conjunto de redes, y estoy bastante seguro de que el genio podría obligarlo. La razón es que parte del poder de una red profunda siempre vendrá del efecto conjunto.

Por lo tanto, no es sorprendente que dos trucos muy exitosos para entrenar redes profundas, abandono y redes residuales, tengan una interpretación inmediata como conjunto implícito. Por lo tanto, "no es profundidad, sino el conjunto" me parece una falsa dicotomía. Realmente solo diría eso si honestamente creyera que necesita cientos o miles de niveles de abstracción para clasificar las imágenes con precisión humana.

Te sugiero que uses el último deseo para otra cosa, tal vez una piñacolada.

BlindKungFuMaster
fuente
0

Las redes residuales aleatorias para muchas no linealidades como el tanh viven en el borde del caos, en el sentido de que la distancia del coseno de dos vectores de entrada convergerá a un punto fijo a una tasa polinómica, en lugar de una tasa exponencial, como con las redes de vainilla tanh. Por lo tanto, una red residual típica cruzará lentamente el límite estable-caótico con profundidad, rondando este límite para muchas capas. Básicamente no "olvida" la geometría del espacio de entrada "muy rápidamente". Entonces, incluso si los hacemos considerablemente profundos, funcionan mejor las redes de vainilla.

Para obtener más información sobre la propagación de información en redes residuales - Redes residuales de campo medio: al borde del caos

Snehal Reddy
fuente