Teorema de aproximación universal para redes convolucionales
14
El teorema de aproximación universal es un resultado bastante famoso para las redes neuronales, básicamente afirmando que, bajo algunos supuestos, una función puede ser aproximada uniformemente por una red neuronal con cualquier precisión.
¿Hay algún resultado análogo que se aplique a las redes neuronales convolucionales?
Esta es una pregunta interesante, sin embargo, carece de una aclaración adecuada de lo que se considera una red neuronal convolucional .
¿Es el único requisito que la red tiene que incluir una operación de convolución? ¿Tiene que incluir solo operaciones de convolución? ¿Se admiten las operaciones de agrupación? Las redes convolucionales utilizadas en la práctica utilizan una combinación de operaciones, que a menudo incluyen capas completamente conectadas (tan pronto como tenga capas completamente conectadas, tendrá la capacidad teórica de aproximación universal).
Para proporcionarle alguna respuesta, considere el siguiente caso: una capa completamente conectada con entradas y salidas se realiza utilizando una matriz de peso . Puede simular esta operación utilizando 2 capas de convolución:DKW∈RK×D
La primera de ellas tiene los filtros de la forma . Elemento del filtro es igual a , el resto son ceros. Esta capa transforma la entrada en espacio intermedio dimensional donde cada dimensión representa un producto de un peso y su entrada correspondiente.K×DDdk,dWk,dKD
La segunda capa contiene filtros de forma . Los elementos del filtro son unos, el resto son ceros. Esta capa realiza la suma de productos de la capa anterior.KKDkD…(k+1)Dk
Dicha red convolucional simula una red totalmente conectada y, por lo tanto, tiene las mismas capacidades de aproximación universal. Depende de usted considerar cuán útil es este ejemplo en la práctica, pero espero que responda su pregunta.
Tal construcción es bastante obvia, pero solo se cumple con, por ejemplo, condiciones de límite de relleno cero. Con el requisito más natural de, por ejemplo, condiciones de contorno periódicas (haciendo que la traducción del operador sea equivalente) falla.
Jonas Adler
1
Sí, esta construcción obvia supone que la convolución solo se aplica en la entrada (sin relleno). Como dije, a menos que especifique lo que está permitido y lo que no está bajo su definición de CNN, supongo que este es un enfoque válido. Además, tenga en cuenta que las implicaciones prácticas de la UAT son prácticamente nulas, por lo que no estoy seguro de si tiene sentido profundizar demasiado en esto, especificando varias versiones de CNN y demostrando algo similar para cada una de ellas.
El artículo muestra que cualquier función equivalente de traducción puede ser aproximada arbitrariamente bien por una red neuronal convolucional dado que es lo suficientemente amplia, en analogía directa con el teorema clásico de aproximación universal.
Vea el artículo Universalidad de redes neuronales convolucionales profundas de Ding-Xuan Zhou , quien muestra que las redes neuronales convolucionales son universales, es decir, pueden aproximar cualquier función continua a una precisión arbitraria cuando la profundidad de la red neuronal es lo suficientemente grande.
Parece que esta pregunta ha sido respondida afirmativamente en este artículo reciente de Dmitry Yarotsky: Aproximaciones universales de mapas invariantes por redes neuronales .
El artículo muestra que cualquier función equivalente de traducción puede ser aproximada arbitrariamente bien por una red neuronal convolucional dado que es lo suficientemente amplia, en analogía directa con el teorema clásico de aproximación universal.
fuente
Vea el artículo Universalidad de redes neuronales convolucionales profundas de Ding-Xuan Zhou , quien muestra que las redes neuronales convolucionales son universales, es decir, pueden aproximar cualquier función continua a una precisión arbitraria cuando la profundidad de la red neuronal es lo suficientemente grande.
fuente