Efecto de NO cambiar los pesos de filtro de CNN durante el backprop

¿Cuál es el efecto de NO cambiar los pesos de filtro de una CNN durante la propagación hacia atrás? Cambié solo los pesos de capa completamente conectados mientras entrenaba en el conjunto de datos MNIST y aún logré una precisión de casi el 99 por ciento.

machine-learning cnn mnist Abhisek Dash
fuente

Interesante, ¿comenzó con pesos aleatorios o con pesos de alguna red anterior? ¿También es su medida de precisión del conjunto de entrenamiento, o de un conjunto de prueba de resistencia?

Neil Slater

@Neil Slater: Comencé con pesos gaussianos aleatorios. La medida de precisión está en el conjunto de prueba.

Abhisek Dash

@Neil Slater: la precisión casi sigue siendo la misma incluso con diferentes inicializaciones de los filtros.

Usé

Respuestas:

Al no cambiar los pesos de las capas convolucionales de una CNN, básicamente está alimentando las características aleatorias de su clasificador (la capa completamente conectada) (es decir, no las características óptimas para la tarea de clasificación en cuestión).

MNIST es una tarea de clasificación de imágenes lo suficientemente fácil como para que pueda alimentar los píxeles de entrada a un clasificador sin ninguna extracción de características y todavía obtendrá una puntuación en los 90 altos. Además de eso, quizás las capas de agrupación ayudan un poco ...

Intente entrenar un MLP (sin las capas conv / pool) en la imagen de entrada y vea cómo se clasifica. Aquí hay un ejemplo en el que un MLP (1 capa oculta y 1 capa de salida) alcanzó el 98 +% sin ningún procesamiento previo / extracción de características.

Editar:

También me gustaría señalar otra respuesta que escribí, que entra en más detalles sobre por qué MNIST es tan fácil como una tarea de clasificación de imágenes.

Djib2011
fuente