Las redes neuronales convolucionales más comunes contienen capas de agrupación para reducir las dimensiones de las características de salida. ¿Por qué no podría lograr lo mismo simplemente aumentando el paso de la capa convolucional? ¿Qué hace necesaria la capa de agrupación?
fuente
Aparentemente, la agrupación máxima ayuda porque extrae las características más nítidas de una imagen. Entonces, dada una imagen, las características más nítidas son la mejor representación de nivel inferior de una imagen. https://www.quora.com/What-is-the-benefit-of-using-average-pooling-rather-than-max-pooling
Pero según la conferencia de aprendizaje profundo de Andrew Ng, la agrupación máxima funciona bien, pero nadie sabe por qué. Cita -> "Pero debo admitirlo, creo que la razón principal por la que las personas usan la agrupación máxima es porque se ha encontrado en muchos experimentos que funcionan bien ... No sé de nadie que sepa si esa es la verdadera razón subyacente ".
fuente