¿Por qué las CNN concluyen con capas FC?

11

Según tengo entendido, las CNN consisten en dos partes. La primera parte (capas conv / pool) que realiza la extracción de características y la segunda parte (capas fc) que realiza la clasificación de las características.

Dado que las redes neuronales completamente conectadas no son los mejores clasificadores (es decir, la mayoría de las veces los SVM y RF superan su rendimiento), ¿por qué los CNN concluyen con capas FC, en lugar de decir un SVM o RF?

Mary93
fuente

Respuestas:

4

No es tan simple En primer lugar, un SVM es, en cierto modo, un tipo de red neuronal (puede aprender una solución SVM a través de la retropropagación). Vea ¿Qué * es * una red neuronal artificial? . En segundo lugar, no puede saber de antemano qué modelo funcionará mejor, pero con una arquitectura totalmente neuromórfica, puede aprender los pesos de extremo a extremo, mientras conecta un SVM o RF a la última activación de capa oculta de una CNN. simplemente un procedimiento ad hoc . Puede funcionar mejor, y puede que no, no podemos saber sin probar.

La parte importante es que una arquitectura totalmente convolucional es capaz de representar el aprendizaje, lo cual es útil por una gran cantidad de razones. Por una vez, puede reducir o eliminar la ingeniería de características por completo en su problema.

Sobre las capas FC, son matemáticamente equivalentes a las capas convolucionales 1x1. Vea la publicación de Yann Lecun , que transcribo a continuación:

En las redes convolucionales, no existen las "capas completamente conectadas". Solo hay capas de convolución con núcleos de convolución 1x1 y una tabla de conexión completa.

Es un hecho que rara vez se entiende que ConvNets no necesita tener una entrada de tamaño fijo. Puede entrenarlos en entradas que producen un solo vector de salida (sin extensión espacial) y luego aplicarlos a imágenes más grandes. En lugar de un solo vector de salida, obtienes un mapa espacial de vectores de salida. Cada vector ve ventanas de entrada en diferentes ubicaciones en la entrada.

En ese escenario, las "capas completamente conectadas" realmente actúan como convoluciones 1x1.

Firebug
fuente
0

Si conocieras el Teorema del almuerzo sin almuerzo (Wolpert & Macready), no te quedarías tan obsesionado con un clasificador y te preguntarías por qué no es el mejor. El teorema de la NFL establece esencialmente que "en el universo de todas las funciones de costos, no existe un mejor clasificador". Segundo, el rendimiento del clasificador siempre "depende de los datos".

El teorema del patito feo (Watanabe) afirma esencialmente que "en el universo de todos los conjuntos de características, no hay un mejor conjunto de características".

El teorema de Cover establece que si , es decir, la dimensionalidad de los datos es mayor que el tamaño de la muestra, entonces un problema de clasificación binaria siempre es linealmente separable.p>n

A la luz de lo anterior, así como de la Navaja de Occam , nunca hay nada mejor que cualquier otra cosa, independientemente de la función de datos y costos.

Siempre he argumentado que las CNN por sí mismas no son conjuntos de clasificadores para los que se puede evaluar la diversidad (kappa vs error).

wrktsj
fuente