¿Cuál es la diferencia entre "equivalente a la traducción" e "invariante a la traducción"

38

Tengo problemas para entender la diferencia entre equivalente a traducción e invariante a traducción .

En el libro Deep Learning . MIT Press, 2016 (I. Goodfellow, A. Courville e Y. Bengio), uno puede encontrar en las redes convolucionales:

  • [...] la forma particular de compartir parámetros hace que la capa tenga una propiedad llamada equivalencia a la traducción
  • [...] la agrupación ayuda a hacer que la representación se vuelva aproximadamente invariable a pequeñas traducciones de la entrada

¿Hay alguna diferencia entre ellos o los términos se usan indistintamente?

Aamir
fuente
2
En los viejos tiempos de la estadística, como en la época de Pitman, invariante se usaba en el significado de equivalente.
Xi'an

Respuestas:

39

La equivalencia y la invariancia a veces se usan indistintamente. Como señaló @ Xi'an , puede encontrar usos en la literatura estadística, por ejemplo, en las nociones del estimador invariante y especialmente el estimador de Pitman .

Sin embargo, me gustaría mencionar que sería mejor si ambos términos se mantienen separados , ya que el prefijo " in " en invariante es privativo (lo que significa "sin variación" en absoluto), mientras que " equi- " en equivalente se refiere a "variable en una proporción similar o equivalente ". En otras palabras, uno no se mueve, el otro sí .

Comencemos por las características simples de la imagen, y supongamos que la imagen I tiene un máximo único m en la ubicación espacial de píxeles (xm,ym) , que es aquí la principal característica de clasificación. En otras palabras: una imagen y todas sus traducciones son "iguales" . Una propiedad interesante de los clasificadores es su capacidad para clasificar de la misma manera algunas versiones distorsionadas I de I , por ejemplo, las traducciones de todos los vectores (u,v) .

El valor máximo m de I es invariante : m=m : el valor es el mismo. Si bien su ubicación será en (xm,ym)=(xmu,ymv) , y es equivalente , lo que significa que varía "igualmente" con la distorsión .

Las formulaciones precisas dadas en matemática para la equivalencia dependen de los objetos y las transformaciones que uno considera, por lo que prefiero aquí la noción que se usa con más frecuencia en la práctica (y puedo culparlo desde un punto de vista teórico).

Aquí, las traducciones (o alguna acción más genérica) pueden equiparse con la estructura de un grupo G , siendo g un operador de traducción específico. Una función o característica f es invariante bajo G si para todas las imágenes de una clase, y para cualquier g ,

f(g(I))=f(I).

Se vuelve equivalente si existe otra estructura o acción matemática (a menudo un grupo) G que refleje las transformaciones en G de manera significativa . En otras palabras, de modo que para cada g , tenga uno un gG único , de modo que

f(g(I))=g(f(I)).

En el ejemplo anterior sobre el grupo de traducciones, g y g son iguales (y, por lo tanto, G=G ): una traducción entera de la imagen se refleja como la misma traducción exacta de la ubicación máxima.

Otra definición común es:

f(g(I))=g(f(I)).

Sin embargo he utilizado potencialmente diferente G y G , porque a veces f(I) y g(I) no están en el mismo dominio. Esto sucede, por ejemplo, en las estadísticas multivariadas (véase, por ejemplo, las propiedades de equivalencia e invariancia del cuantil multivariado y las funciones relacionadas, y el papel de la estandarización ). Pero aquí, la unicidad del mapeo entre g y g permite volver a la transformación original g .

A menudo, las personas usan el término invariancia porque el concepto de equivalencia es desconocido, o todos los demás usan invariancia, y la equivalencia parecería más pedante.

Para el registro, otras nociones relacionadas (especialmente en matemáticas y física) se denominan covarianza , contravarianza , invariancia diferencial .

Además, la invariancia de traducción, como mínimo aproximada, o en sobre, ha sido una búsqueda de varias herramientas de procesamiento de señales e imágenes. En particular, las transformaciones de múltiples velocidades (bancos de filtros) y de múltiples escalas (wavelets o pirámides) se han diseñado en los últimos 25 años, por ejemplo, bajo el capó del árbol de doble invariante, giro de ciclo, estacionario, complejo y dual. transformadas wavelet (para una revisión de wavelets 2D, un panorama sobre representaciones geométricas multiescala ). Las wavelets pueden absorber algunas variaciones de escala discretas. Todas las variaciones (aproximadas) de tesis a menudo vienen con el precio de la redundancia en el número de coeficientes transformados. Pero es más probable que produzcan características invariantes de desplazamiento o equivalentes de desplazamiento.

Laurent Duval
fuente
44
¡Excelente! Realmente admiro su esfuerzo por la respuesta detallada @Laurent Duval
Aamir
25

Los términos son diferentes:

  • Equivalente a la traducción significa que una traducción de características de entrada da como resultado una traducción equivalente de salidas. Entonces, si su patrón 0,3,2,0,0 en la entrada da como resultado 0,1,0,0 en la salida, entonces el patrón 0,0,3,2,0 podría conducir a 0,0,1, 0 0

  • Invariante a la traducción significa que una traducción de las características de entrada no cambia las salidas en absoluto. Entonces, si su patrón 0,3,2,0,0 en la entrada da como resultado 0,1,0 en la salida, entonces el patrón 0,0,3,2,0 también conduciría a 0,1,0

Para que los mapas de características en redes convolucionales sean útiles, generalmente necesitan ambas propiedades en cierto equilibrio. La equivalencia permite que la red generalice la detección de bordes, texturas y formas en diferentes ubicaciones. La invariancia permite que la ubicación precisa de las características detectadas tenga menos importancia. Estos son dos tipos complementarios de generalización para muchas tareas de procesamiento de imágenes.

Neil Slater
fuente
La característica traducida produce resultados traducidos en alguna capa. Por favor, explique sobre la detección considerable de todo el objeto traducido. ¿Parece que se detectará incluso si CNN no fue entrenado con imágenes que contienen diferentes posiciones? ¿La equivalencia se cumple en este caso (se parece más a la invariancia)?
VladimirLenin
@VladimirLenin: No creo que se requiera elaboración para esta pregunta, definitivamente no es algo que el OP ha preguntado aquí. Le sugiero que haga una pregunta por separado, con un ejemplo concreto si es posible. Incluso si visualmente se ha traducido un "objeto completo", eso no significa que los mapas de características en una CNN estén rastreando lo mismo que espera.
Neil Slater
4

Solo agrego mis 2 centavos

f:ILIL

  • f:IL
  • f:LL

y se realiza utilizando las siguientes propiedades

  • equivalencia espacial, con respecto a ConvLayer (Convolución 2D espacial + No lineal, por ejemplo, ReLU) como un cambio en la entrada de capa produce un cambio en la salida de capa (Nota: se trata de la capa, no del operador de convolución único)
  • invariancia espacial, con respecto al operador de agrupación (por ejemplo, la agrupación máxima pasa sobre el valor máximo en su campo receptivo independientemente de su posición espacial)

I

L

El uso de capas completamente conectadas en el frontend hace que el clasificador sea sensible a la posición de la entidad en cierta medida, dependiendo de la estructura del backend: cuanto más profundo es y más se utiliza el operador invariante de traducción (Pooling)

Se ha demostrado en Quantifying Translation-Invariance in Convolutional Neural Networks que para mejorar la invariancia de traducción del clasificador CNN, en lugar de actuar sobre el sesgo inductivo (arquitectura, por lo tanto, profundidad, agrupación, ...) es más efectivo actuar sobre el sesgo del conjunto de datos (aumento de datos )

Nicola Bernini
fuente