Aproximación de función universal

15

Se sabe a través del teorema de aproximación universal que una red neuronal con incluso una sola capa oculta y una función de activación arbitraria puede aproximarse a cualquier función continua.

¿Qué otros modelos hay que también son aproximadores de función universal?

Optar
fuente
Me uní a este sitio para votar esta pregunta y algunas de las respuestas.
Prasad Raghavendra

Respuestas:

20

Esto se trata ampliamente en la literatura estadística, bajo el tema de regresión. Dos referencias estándar aquí son el libro de Wasserman "todas las estadísticas no paramétricas" y la "introducción a la estimación no paramétrica" ​​de Tsybakov. Hablaré brevemente sobre algunas de las cosas estándar e intentaré dar sugerencias fuera de las estadísticas (este es un tema común y los diferentes campos tienen diferentes culturas: probar diferentes tipos de teoremas, hacer diferentes suposiciones).

  1. (Regresores del núcleo, a veces llamados Estimador Nadaraya-Watson.) Aquí se escribe la función en cualquier punto como una combinación ponderada de valores cercanos. Más concretamente, dado que esto se encuentra en la literatura estadística, normalmente supone que tiene algunos ejemplos extraído de alguna distribución, y arregla algo del núcleo K (puede pensar en esto como una gaussiana, pero media cero es lo que más importa), y escribir f ( x ) : = Σ i f ( x i((Xyo,F(Xyo)))yo=1norteK dondecn(usted es más sensible a pequeñas distancias a medida quenaumenta). La garantía es que, comon, un criterio probilístico de distorsión (expectativa de sup-norma, alta probabilidad, lo que sea) va a cero. (Casi no importa cómo seveK--- importa más cómo eligescn.)

    F^(X): =yoF(Xyo)(K(Cnorte(X-Xyo))jK(Cnorte(X-Xj))),
    CnortenortenorteKCnorte
  2. L2F^F. Para tener una idea de la diversidad de enfoques aquí, un buen trabajo es la "aproximación uniforme de funciones de Rahimi & Recht con bases aleatorias". Quizás debería decir que el abuelo de todos estos es la expansión de Fourier; Hay mucho material bueno sobre esto en el libro de Mallat sobre Wavelets.

  3. (Métodos de árbol). Otra forma es mirar una función como un árbol; en cada nivel, está trabajando con alguna partición del dominio y devuelve, por ejemplo, el punto promedio. (Cada poda del árbol también proporciona una partición). En el límite, la finura de esta partición ya no discretizará la función, y la ha reconstruido exactamente. La mejor forma de elegir esta partición es un problema difícil. (Puedes buscar en Google en "árbol de regresión").

  4. (Métodos polinomiales; ver también splines y otras técnicas de interpolación). Según el teorema de Taylor, usted sabe que puede acercarse arbitrariamente a funciones bien comportadas. Esto puede parecer un enfoque muy básico (es decir, solo use el polinomio de interpolación de Lagrange), pero donde las cosas se ponen interesantes es decidir quépuntos para interpolar. Esto se investigó ampliamente en el contexto de la integración numérica; puede encontrar algunas matemáticas increíbles bajo los temas de "cuadratura clenshaw-curtis" y "cuadratura gaussiana". Estoy lanzando esto aquí porque los tipos de suposiciones y garantías aquí son tan drásticamente diferentes de lo que aparece arriba. Me gusta este campo, pero estos métodos sufren mucho por la maldición de la dimensión, al menos creo que es por eso que se discuten menos de lo que solían ser (si haces integración numérica con Mathica, creo que cuadratura para dominios univariantes, pero técnicas de muestreo para dominios multivariados).

Teniendo en cuenta varias restricciones para su clase de función, puede crear una instancia de lo anterior para obtener todo tipo de otros escenarios ampliamente utilizados. Por ejemplo, con funciones de valor booleano, el umbral (1.) se parecerá mucho a un estimador vecino más cercano, o un SVM con algún núcleo local (gaussiano). Muchas de las cosas anteriores sufren de la maldición de la dimensión (los límites muestran una dependencia exponencial de la dimensión). En el aprendizaje automático, se soluciona esto restringiendo explícitamente su clase a alguna familia (es decir, "métodos paramétricos), o mediante una restricción implícita, generalmente algo que relaciona la calidad de los aproximados con la complejidad de la función objetivo (es decir, un análogo de la clase suposición de aprendizaje débil en el impulso).

F:RreR

F(X)=j=0 02rehj(yo=1resolj,yo(Xyo)),
solj,yo:RRhj:RRsolhΘ(re2)

(Solo preguntaste sobre las clases de función, pero supuse que también te interesarían los métodos ... si no ... ¡Uy!)

matus
fuente
"¡Desde 1957!", ¿Es ese el exponencial de 1957, entonces es del futuro? :)
nbro