Este tipo de preguntas pueden depender de problemas, pero he tratado de encontrar una investigación que aborde la pregunta de si el número de capas ocultas y su tamaño (número de neuronas en cada capa) realmente importan o no.
Entonces mi pregunta es, ¿realmente importa si, por ejemplo, tenemos 1 gran capa oculta de 1000 neuronas frente a 10 capas ocultas con 100 neuronas cada una?
fuente
Hay tantos aspectos
1. Entrenamiento: entrenar redes profundas es un trabajo difícil debido al problema de gradiente que desaparece (explotando hacia atrás). Por lo tanto, no se recomienda construir una red neuronal de 10x100.
2. Rendimiento de red capacitado:
Entonces, las redes más profundas son más "inteligentes", pero la estructura de red 10x100 es una buena opción.
fuente
Si el problema que está resolviendo es linealmente separable, una capa de 1000 neuronas puede funcionar mejor que 10 capas con cada una de 100 neuronas. Si el problema no es lineal y no es convexo, entonces necesita redes neuronales profundas.
fuente
La salida de la primera capa oculta se multiplicará por un peso, procesada por una función de activación en la siguiente capa y así sucesivamente. Las redes neuronales de una sola capa son muy limitadas para tareas simples, un NN más profundo puede funcionar mucho mejor que una sola capa.
Sin embargo, no use más de capa si su aplicación no es bastante compleja. En conclusión, 100 capas de neuronas no significa una mejor red neuronal que 10 capas x 10 neuronas, pero 10 capas son algo imaginario a menos que esté haciendo un aprendizaje profundo. comience con 10 neuronas en la capa oculta e intente agregar capas o agregue más neuronas a la misma capa para ver la diferencia. aprender con más capas será más fácil pero se requiere más tiempo de entrenamiento.
fuente