Descubrí que Imagenet y otras CNN grandes utilizan capas de normalización de respuesta local. Sin embargo, no puedo encontrar tanta información sobre ellos. ¿Cuán importantes son y cuándo deben usarse?
De http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers :
"La capa de normalización de respuesta local realiza una especie de" inhibición lateral "al normalizar las regiones de entrada locales. En el modo ACROSS_CHANNELS, las regiones locales se extienden a través de canales cercanos, pero no tienen extensión espacial (es decir, tienen forma local_size x 1 x 1) En el modo WITHIN_CHANNEL, las regiones locales se extienden espacialmente, pero están en canales separados (es decir, tienen forma 1 x tamaño_ local x tamaño local). Cada valor de entrada se divide por (1+ (α / n) ∑ix2i) β, donde n es el tamaño de cada región local, y la suma se toma sobre la región centrada en ese valor (se agrega relleno cero cuando es necesario) ".
Editar:
Parece que este tipo de capas tienen un impacto mínimo y ya no se usan. Básicamente, su papel ha sido superado por otras técnicas de regularización (como la deserción y la normalización por lotes), mejores inicializaciones y métodos de capacitación. Vea mi respuesta a continuación para más detalles.
Con esta respuesta, me gustaría resumir las contribuciones de otros autores y proporcionar una explicación en un solo lugar de la técnica LRN (o normalización contrastante) para aquellos que solo desean conocer qué es y cómo funciona.
Motivación: ' Este tipo de normalización de respuesta (LRN) implementa una forma de inhibición lateral inspirada en el tipo que se encuentra en las neuronas reales, creando competencia para grandes actividades entre las salidas de neuronas calculadas usando diferentes núcleos. « AlexNet 3.3
En otras palabras, LRN permite disminuir las respuestas que son uniformemente grandes para el vecindario y hacer que la activación grande sea más pronunciada dentro de un vecindario, es decir, crear un mayor contraste en el mapa de activación. prateekvjoshi.com afirma que es particularmente útil con funciones de activación ilimitadas como RELU.
Fórmula original: para cada posición particular (x, y) y kernel i que corresponde a una única salida 'pixel' aplicamos un 'filtro', que incorpora información sobre las salidas de otros n kernels aplicados a la misma posición. Esta regularización se aplica antes de la función de activación. Esta regularización, de hecho, se basa en el orden de los núcleos que es, hasta donde sé, solo una desafortunada coincidencia.
En la práctica (ver Caffe ) se pueden usar 2 enfoques:
Uso real LRN se usó con mayor frecuencia durante los días de los primeros conventos como LeNet-5. La implementación actual de GoogLeNet (Inception) en Caffe a menudo usa LRN en relación con las técnicas de agrupación, pero parece que se hace por el simple hecho de tenerlo. Ni Inception / GoogLeNet original ( aquí ) ni ninguna de las siguientes versiones mencionan LRN de ninguna manera. Además, la implementación de TensorFlow de las redes Inception (proporcionadas y actualizadas por el equipo de autores originales) no utiliza LRN a pesar de estar disponible.
Conclusión La aplicación de LRN junto con la capa de agrupación no dañaría el rendimiento de la red siempre que los valores de hiperparámetros sean razonables. A pesar de eso, no conozco ninguna justificación reciente para aplicar LRN / normalización de contraste en una red neuronal.
fuente
El tipo de capa de Normalización de respuesta local (LRN) resulta útil cuando se usan neuronas con activaciones ilimitadas (por ejemplo, neuronas lineales rectificadas), porque permite la detección de características de alta frecuencia con una gran respuesta neuronal, mientras que amortigua las respuestas que son uniformemente grandes en un barrio local Es un tipo de regularizador que fomenta la "competencia" para grandes actividades entre grupos cercanos de neuronas.
src- https://code.google.com/p/cuda-convnet/wiki/LayerParams#Local_response_normalization_layer_(same_map)
fuente
La normalización de respuesta local (LRN) se realiza en píxeles para cada canal :i
donde son constantes. Tenga en cuenta que obtiene la normalización de L2 si configura , , .k,α,β∈R κ=0 α=1 β=12
Sin embargo, existe una técnica mucho más nueva llamada "normalización por lotes" (ver artículo ) que funciona de manera bastante similar y sugiere que ya no se use LRN. La normalización por lotes también funciona en cuanto a píxeles:
donde es la media, es la varianza, es una pequeña constante, son parámetros aprendibles que permiten que la red elimine la normalización.μ σ2 ε>0 γ,β∈R
Entonces la respuesta es: la normalización de la respuesta local ya no es importante, porque tenemos algo que funciona mejor y reemplazamos LRN: normalización por lotes.
Ver también
fuente