Las redes backprop totalmente conectadas (al menos capa a capa con más de 2 capas ocultas) son aprendices universales. Desafortunadamente, a menudo son lentos para aprender y tienden a ajustarse demasiado o tienen generalizaciones incómodas.
Al perder el tiempo con estas redes, he observado que podar algunos de los bordes (para que su peso sea cero e imposible de cambiar) tiende a hacer que las redes aprendan más rápido y se generalicen mejor. ¿Hay alguna razón para esto? ¿Es solo debido a una disminución en la dimensionalidad del espacio de búsqueda de pesos, o hay una razón más sutil?
Además, ¿es la mejor generalización un artefacto de los problemas "naturales" que estoy viendo?
fuente