¿El teorema de aproximación universal para redes neuronales es válido para cualquier función de activación (sigmoide, ReLU, Softmax, etc.) o se limita a las funciones sigmoideas?
Actualización: como señala shimao en los comentarios, no cumple absolutamente ninguna función. Entonces, ¿para qué clase de funciones de activación tiene?
neural-networks
approximation
Skander H.
fuente
fuente
Respuestas:
El artículo de wikipedia tiene una declaración formal.
fuente
Las redes de alimentación de múltiples capas son una referencia publicada que aborda el problema. Las funciones de activación polinómica no tienen la propiedad de aproximación universal.
La preimpresión NN con funciones de activación ilimitadas cubre muchas funciones de activación. Solo se ve en una sola capa oculta NN. Es pesado en el análisis de Fourier.
Destaco que la segunda referencia es una preimpresión porque no puedo garantizar su precisión. Leshno et alt 1993 es una publicación revisada.
fuente
El documento de 1991 de Kurt Hornik "Capacidades de aproximación de las redes de alimentación de múltiples capas" demuestra que las "redes de alimentación de múltiples capas estándar con tan solo una capa oculta y una función de activación arbitraria limitada y no constante son aproximadores universales con respecto aLP(μ) criterios de rendimiento, para medidas arbitrarias de entorno de entrada finita μ , siempre que haya suficientes unidades ocultas disponibles. "En otras palabras, la hipótesis de que la función de activación es limitada y no constante es suficiente para aproximar casi cualquier función dado que podemos usar tantas unidades ocultas como queramos en la red neuronal. El documento debe estar disponible aquí: http://zmjones.com/static/statistical-learning/hornik-nn-1991.pdf
fuente