¿Por qué complicarse si Max Pooling solo va a reducir la imagen de todos modos?

13

La idea de aplicar filtros para hacer algo como identificar bordes es una idea genial.

Por ejemplo, puede tomar una imagen de 7. Con algunos filtros, puede terminar con imágenes transformadas que enfatizan las diferentes características de la imagen original. Los 7 originales:

ingrese la descripción de la imagen aquí

puede ser experimentado por la red como:

ingrese la descripción de la imagen aquí

Observe cómo cada imagen ha extraído un borde diferente del original 7.

Todo esto es genial, pero luego, digamos que la siguiente capa en su red es una capa de Max Pooling.

Mi pregunta es, en general, ¿no parece esto un poco excesivo? Simplemente fuimos muy cuidadosos y deliberados al identificar bordes usando filtros; ahora, ya no nos importa nada de eso, ¡ya que hemos eliminado los valores de píxeles! ¡Corrígeme si me equivoco, pero pasamos de 25 X 25 a 2 X 2! ¿Por qué no ir directamente a Max Pooling, entonces, no terminaremos básicamente con lo mismo?

Como una extensión de mi pregunta, no puedo evitar preguntarme qué pasaría si, por coincidencia, cada uno de los 4 cuadrados tuviera un píxel con el mismo valor máximo. Seguramente este no es un caso raro, ¿verdad? De repente, todas tus imágenes de entrenamiento se ven exactamente iguales.

Monica Heddneck
fuente

Respuestas:

15

La agrupación máxima no reduce la muestra. Muestra las características (como los bordes) que acaba de extraer. Lo que significa que obtienes más aproximadamente dónde están esos bordes u otras características. A menudo, esto es justo lo que necesita la red para la generalización: para clasificar no es necesario saber que hay un borde vertical que va de 10,5 a 10,20, sino que hay un borde vertical aproximadamente 1/3 de borde izquierdo aproximadamente 2/3 de altura de la imagen.

Estas categorías más duras de características cubren inherentemente más variaciones en la imagen de entrada por un costo muy bajo, y la reducción en el tamaño del mapa de características también es un buen efecto secundario, lo que hace que la red sea más rápida.

Para que esto funcione bien, aún necesita extraer características para comenzar, lo que no hace la agrupación máxima, por lo que la capa convolucional es necesaria. Debería descubrir que puede reducir la muestra de la imagen original (a 14x14) en lugar de usar la primera capa de agrupación máxima, y ​​aún así obtendrá una precisión bastante razonable. La cantidad de agrupación que se debe hacer y dónde agregar esas capas es otro problema de hiperparámetro al construir una red neuronal profunda.

Neil Slater
fuente
5

No podemos pasar directamente de la capa de entrada a la agrupación máxima debido convolution layera lo intermedio. La razón de la convolución es extraer características. La agrupación máxima reduce las muestras que se han extraído. Si cree que faltan características debido al salto directo de una matriz grande a una capa de agrupación máxima, puede agregar más capas de convolución en el medio hasta que parezca satisfecho con un tamaño y luego hacer la agrupación máxima en él para que No es una exageración.

La agrupación máxima, que es una forma de muestreo descendente, se utiliza para identificar las características más importantes. Pero la agrupación promedio y varias otras técnicas también se pueden utilizar. Normalmente trabajo con texto y no con imágenes. Para mí, los valores normalmente no son todos iguales. Pero si también lo son, no habría mucha diferencia porque solo elige el valor más grande.

Una muy buena comprensión de wiki :The intuition is that once a feature has been found, its exact location isn't as important as its rough location relative to other features. The function of the pooling layer is to progressively reduce the spatial size of the representation to reduce the amount of parameters and computation in the network, and hence to also control overfitting. It is common to periodically insert a pooling layer in-between successive conv layers in a CNN architecture. The pooling operation provides a form of translation invariance.

Hima Varsha
fuente
¿Puedes explicar la última oración The pooling operation provides a form of translation invariance?
HelloWorld
@StudentT Significa que la salida del grupo máximo será aproximadamente la misma si la función se detecta en cualquier lugar de la imagen. Mueva la cosa en la imagen que está activando la función y una entrada diferente al grupo máximo será máxima, pero la salida del grupo máximo debería ser la misma.
mrmcgreg
@mrmcgreg Creo que eso es cierto para la agrupación global, no para la agrupación máxima. La agrupación máxima proporciona un tipo de invariancia a las traducciones locales dentro de la región de la agrupación (por ejemplo, 2x2). Esto permite cierta inquietud en las características.
geometrikal
0

La convolución consiste básicamente en filtrar la imagen con un filtro de píxeles más pequeño para reducir el tamaño de la imagen sin perder la relación entre píxeles (parámetros de la red). del filtro, sin embargo, puede perder parámetros importantes en el proceso que la convolución vuelve a lograr al no reducir significativamente el tamaño.

Siddharth Parmar
fuente