En el caso de los filtros CNN, se aplican a pequeños parches de una imagen en cada ubicación posible (lo que también hace que la traducción sea invariable).
Las capas ocultas de Autoencoder obtienen la imagen completa (salida de la capa anterior) como su entrada, lo que no parece una buena idea para las imágenes: generalmente solo las características espacialmente locales se correlacionan, mientras que las más distantes están menos correlacionadas. Además, estas neuronas ocultas no son invariantes de traducción.
Por lo tanto, las CNN son como las ANN habituales con un tipo especial de regularización, que elimina la mayoría de los pesos para hacer uso de la localidad.