Tengo problemas para entender la diferencia entre equivalente a traducción e invariante a traducción .
En el libro Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville e Y. Bengio), uno puede encontrar en las redes convolucionales:
- [...] la forma particular de compartir parámetros hace que la capa tenga una propiedad llamada equivalencia a la traducción
- [...] la agrupación ayuda a hacer que la representación se vuelva aproximadamente invariable a pequeñas traducciones de la entrada
¿Hay alguna diferencia entre ellos o los términos se usan indistintamente?
Respuestas:
La equivalencia y la invariancia a veces se usan indistintamente. Como señaló @ Xi'an , puede encontrar usos en la literatura estadística, por ejemplo, en las nociones del estimador invariante y especialmente el estimador de Pitman .
Sin embargo, me gustaría mencionar que sería mejor si ambos términos se mantienen separados , ya que el prefijo " in " en invariante es privativo (lo que significa "sin variación" en absoluto), mientras que " equi- " en equivalente se refiere a "variable en una proporción similar o equivalente ". En otras palabras, uno no se mueve, el otro sí .
Comencemos por las características simples de la imagen, y supongamos que la imagenyo tiene un máximo único metro en la ubicación espacial de píxeles ( xmetro, ymetro) , que es aquí la principal característica de clasificación. En otras palabras: una imagen y todas sus traducciones son "iguales" . Una propiedad interesante de los clasificadores es su capacidad para clasificar de la misma manera algunas versiones distorsionadas yo′ de yo , por ejemplo, las traducciones de todos los vectores ( u , v ) .
El valor máximometro′ de yo′ es invariante : metro′= m : el valor es el mismo. Si bien su ubicación será en ( x′metro, y′metro) = ( xmetro- u , ymetro- v ) , y es equivalente , lo que significa que varía "igualmente" con la distorsión .
Las formulaciones precisas dadas en matemática para la equivalencia dependen de los objetos y las transformaciones que uno considera, por lo que prefiero aquí la noción que se usa con más frecuencia en la práctica (y puedo culparlo desde un punto de vista teórico).
Aquí, las traducciones (o alguna acción más genérica) pueden equiparse con la estructura de un gruposol , siendo sol un operador de traducción específico. Una función o característica F es invariante bajo sol si para todas las imágenes de una clase, y para cualquier sol ,
F( g( Yo) ) = f( Yo).
Se vuelve equivalente si existe otra estructura o acción matemática (a menudo un grupo)sol′ que refleje las transformaciones en sol de manera significativa . En otras palabras, de modo que para cada sol , tenga uno un sol′∈ G′ único , de modo que
En el ejemplo anterior sobre el grupo de traducciones,sol y sol′ son iguales (y, por lo tanto, sol′= G ): una traducción entera de la imagen se refleja como la misma traducción exacta de la ubicación máxima.
Otra definición común es:
Sin embargo he utilizado potencialmente diferentesol y sol′ , porque a veces F( Yo) y sol( Yo) no están en el mismo dominio. Esto sucede, por ejemplo, en las estadísticas multivariadas (véase, por ejemplo, las propiedades de equivalencia e invariancia del cuantil multivariado y las funciones relacionadas, y el papel de la estandarización ). Pero aquí, la unicidad del mapeo entre sol y sol′ permite volver a la transformación original sol .
A menudo, las personas usan el término invariancia porque el concepto de equivalencia es desconocido, o todos los demás usan invariancia, y la equivalencia parecería más pedante.
Para el registro, otras nociones relacionadas (especialmente en matemáticas y física) se denominan covarianza , contravarianza , invariancia diferencial .
Además, la invariancia de traducción, como mínimo aproximada, o en sobre, ha sido una búsqueda de varias herramientas de procesamiento de señales e imágenes. En particular, las transformaciones de múltiples velocidades (bancos de filtros) y de múltiples escalas (wavelets o pirámides) se han diseñado en los últimos 25 años, por ejemplo, bajo el capó del árbol de doble invariante, giro de ciclo, estacionario, complejo y dual. transformadas wavelet (para una revisión de wavelets 2D, un panorama sobre representaciones geométricas multiescala ). Las wavelets pueden absorber algunas variaciones de escala discretas. Todas las variaciones (aproximadas) de tesis a menudo vienen con el precio de la redundancia en el número de coeficientes transformados. Pero es más probable que produzcan características invariantes de desplazamiento o equivalentes de desplazamiento.
fuente
Los términos son diferentes:
Equivalente a la traducción significa que una traducción de características de entrada da como resultado una traducción equivalente de salidas. Entonces, si su patrón 0,3,2,0,0 en la entrada da como resultado 0,1,0,0 en la salida, entonces el patrón 0,0,3,2,0 podría conducir a 0,0,1, 0 0
Invariante a la traducción significa que una traducción de las características de entrada no cambia las salidas en absoluto. Entonces, si su patrón 0,3,2,0,0 en la entrada da como resultado 0,1,0 en la salida, entonces el patrón 0,0,3,2,0 también conduciría a 0,1,0
Para que los mapas de características en redes convolucionales sean útiles, generalmente necesitan ambas propiedades en cierto equilibrio. La equivalencia permite que la red generalice la detección de bordes, texturas y formas en diferentes ubicaciones. La invariancia permite que la ubicación precisa de las características detectadas tenga menos importancia. Estos son dos tipos complementarios de generalización para muchas tareas de procesamiento de imágenes.
fuente
Solo agrego mis 2 centavos
y se realiza utilizando las siguientes propiedades
El uso de capas completamente conectadas en el frontend hace que el clasificador sea sensible a la posición de la entidad en cierta medida, dependiendo de la estructura del backend: cuanto más profundo es y más se utiliza el operador invariante de traducción (Pooling)
Se ha demostrado en Quantifying Translation-Invariance in Convolutional Neural Networks que para mejorar la invariancia de traducción del clasificador CNN, en lugar de actuar sobre el sesgo inductivo (arquitectura, por lo tanto, profundidad, agrupación, ...) es más efectivo actuar sobre el sesgo del conjunto de datos (aumento de datos )
fuente