¿Por qué las redes neuronales parecen funcionar mejor con restricciones impuestas en su topología?

29

Las redes backprop totalmente conectadas (al menos capa a capa con más de 2 capas ocultas) son aprendices universales. Desafortunadamente, a menudo son lentos para aprender y tienden a ajustarse demasiado o tienen generalizaciones incómodas.

Al perder el tiempo con estas redes, he observado que podar algunos de los bordes (para que su peso sea cero e imposible de cambiar) tiende a hacer que las redes aprendan más rápido y se generalicen mejor. ¿Hay alguna razón para esto? ¿Es solo debido a una disminución en la dimensionalidad del espacio de búsqueda de pesos, o hay una razón más sutil?

Además, ¿es la mejor generalización un artefacto de los problemas "naturales" que estoy viendo?

Artem Kaznatcheev
fuente

Respuestas:

9

Menos nodos / aristas (o aristas con pesos fijos) significa que hay menos parámetros cuyos valores necesitan ser encontrados, y esto generalmente reduce el tiempo de aprendizaje. Además, cuando hay menos parámetros, el espacio que puede expresar la red neuronal tiene menos dimensiones, por lo que la red neuronal solo puede expresar modelos más generales. Por lo tanto, es menos capaz de sobreajustar los datos, y por lo tanto los modelos parecerán más generales.

Dave Clarke
fuente
5

Al podar los bordes, ha reducido el espacio de búsqueda para el algoritmo de entrenamiento, que tendrá una recompensa inmediata en el rendimiento del tiempo. También ha introducido restricciones en las funciones que la red puede modelar. Las restricciones pueden obligar a su modelo a encontrar una solución más general ya que la más precisa es inalcanzable. Una técnica común para entrenar redes neuronales es usar una técnica de descenso de gradiente. Otra consecuencia de la poda puede ser que haya eliminado algunos mínimos locales en el panorama de parámetros que nuevamente permiten que el algoritmo de entrenamiento encuentre una mejor solución.

No me sorprendería que su mejor generalización esté relacionada con los problemas que está viendo. He tenido éxito con las redes neuronales donde el modelo subyacente tiene una estructura continua, mientras que en los casos en que hay discontinuidades, las cosas no funcionaron tan bien. Tenga en cuenta también que el rendimiento de la red neuronal a menudo está íntimamente relacionado con la forma en que estructura su entrada y salida.

John Percival Hackworth
fuente