Característica extraída por agrupación máxima frente a agrupación media

8

En el aprendizaje profundo, y su aplicación a la visión por computadora, ¿es posible decir qué tipo de características extraen estos dos tipos de agrupación? por ejemplo, ¿es posible decir que max pool extrae bordes? ¿Podemos decir algo similar con respecto a la agrupación media?

PS no dude en recomendar si stackoverflow es más adecuado.

editar
fuente

Respuestas:

11

Yo no diría que el bien contiene extracto. En cambio, son las capas convolucionales las que construyen / extraen características, y las capas de agrupación las comprimen a una fidelidad más baja. La diferencia está en la forma en que ocurre la compresión y en qué tipo de fidelidad se retiene:

  • Una capa de grupo máximo comprimida al tomar la activación máxima en un bloque. Si tiene un bloqueo con una activación mayoritariamente pequeña, pero una pequeña activación grande, perderá la información sobre las activaciones bajas. Creo que esto dice "este tipo de característica se detectó en esta área general".
  • Una capa de grupo medio se comprime al tomar la activación media en un bloque. Si las activaciones grandes se equilibran con activaciones negativas, las activaciones comprimidas generales se verán como ninguna activación en absoluto. Por otro lado, conserva alguna información sobre bajas activaciones en el ejemplo anterior.
Matthew Drury
fuente
4

mi opinión es que la agrupación máxima y media no tiene nada que ver con el tipo de características, sino con la invariancia de traducción.

Imagine aprender a reconocer una 'A' frente a una 'B' (sin variación en los píxeles de A y B). Primero en una posición fija en la imagen. Esto se puede hacer mediante una regresión logística (1 neurona): los pesos terminan siendo una plantilla de la diferencia A - B.

Ahora, ¿qué sucede si entrenas para reconocer en diferentes lugares de la imagen? No puede hacer esto con la regresión logística, barriendo sobre la imagen (es decir, aproximando una capa convolucional con un filtro) y etiquetando todos los barridos de la imagen A o B según corresponda, porque el aprendizaje de las diferentes posiciones interfiere, efectivamente intenta aprender el promedio de AB como A / B se pasan a través de su filtro, pero esto es solo un desenfoque.

con la agrupación máxima, el aprendizaje solo se realiza en la ubicación de la activación máxima (que con suerte se centra en la letra). No estoy tan seguro acerca de la agrupación media: me imagino que se realiza más aprendizaje (es decir, ajuste de peso) en la ubicación de activación máxima y eso evita el desenfoque) ...

Le animo a que implemente una red tan simple con 2 clases y 1 filtro para capa convolucional, luego agrupación máxima / media y 1 nodo de salida e inspeccione los pesos / rendimiento.

seanv507
fuente