Gaussian RBF vs. Gaussian kernel

18

¿Cuál es la diferencia entre hacer una regresión lineal con una función de base radial gaussiana (RBF) y hacer una regresión lineal con un núcleo gaussiano?

usuario35965
fuente
Bienvenido al sitio, @ user35965. Por favor, deletree sus siglas. Por "RBF", ¿se refiere a la función de base radial ?
gung - Restablece a Monica
2
Sí, eso es exactamente lo que quise decir. Debidamente señalado para futuras referencias.
user35965

Respuestas:

19

La única diferencia real está en la regularización que se aplica. Una red RBF regularizada generalmente usa una penalización basada en la norma al cuadrado de los pesos. Para la versión del kernel, la penalización está típicamente en la norma al cuadrado de los pesos del modelo lineal construido implícitamente en el espacio de características inducido por el kernel. La diferencia práctica clave que esto hace es que la penalización para la red RBF depende de los centros de la red RBF (y, por lo tanto, de la muestra de datos utilizados), mientras que para el núcleo RBF, el espacio de características inducidas es el mismo independientemente de la muestra de datos, por lo que la penalización es una penalización en la función del modelo, más que en su parametrización .

En otras palabras, para ambos modelos tenemos

f(x)=i=1αiK(xi,x)

Para el enfoque de red RBF, el criterio de capacitación es

L=i=1(yif(xi))2+λα2

Para el método de kernel RBF, tenemos que K(x,x)=ϕ(x)ϕ(x) y w=i=1αiϕ(xi) . Esto significa que una penalización de norma al cuadrado en los pesos del modelo en el espacio de características inducidas, w se puede escribir en términos de los parámetros duales, α como

w2=αTKα,

donde es la combinación de evaluaciones por pares del núcleo para todos los patrones de entrenamiento. El criterio de entrenamiento es entoncesK

L=i=1(yif(xi))2+λαTKα .

La única diferencia entre los dos modelos es la en el término de regularización.K

La ventaja teórica clave del enfoque del núcleo es que le permite interpretar un modelo no lineal como un modelo lineal que sigue una transformación no lineal fija que no depende de la muestra de datos. Por lo tanto, cualquier teoría de aprendizaje estadístico que exista para modelos lineales se transfiere automáticamente a la versión no lineal. Sin embargo, todo esto se rompe tan pronto como intenta ajustar los parámetros del kernel, momento en el que volvemos al mismo punto teóricamente hablando que con las redes neuronales RBF (y MLP). Entonces, la ventaja teórica quizás no sea tan grande como nos gustaría.

¿Es probable que haga alguna diferencia real en términos de rendimiento? Probablemente no mucho. Los teoremas de "no almuerzo gratis" sugieren que no existe una superioridad a priori de ningún algoritmo sobre todos los demás, y la diferencia en la regularización es bastante sutil, por lo que, en caso de duda, intente ambos y elija el mejor según, por ejemplo, la validación cruzada.

Dikran Marsupial
fuente
1
@CagdasOzgenc Sí, para el RBF el regularizador es lugar de para la máquina del núcleo. Serían más similar a la anchura de la función de base tiende a cero cuando se acercaría . Creo que esto se debe esencialmente a que representa la correlación entre las funciones básicas . α T K α K I Kα2=αTIααTKαKIK
Dikran Marsupial
@CagdasOzgenc La forma en que lo veo es que la en el regularizador pondera la penalización de manera diferente para cada vector base, y la penalización depende de la selección de los otros vectores base. Este peso depende de sus correlaciones, por lo que si elige una muestra diferente, los pesos cambian para compensar. La otra forma de verlo es que el modelo se define en un espacio de características determinado por , que no depende de la elección de los vectores base (siempre que abarquen el espacio que contiene los datos). ϕ ( x )Kϕ(x)
Dikran Marsupial
@CagdasOzgenc Claro que podemos transformar el espacio de las funciones básicas mediante una descomposición propia de y recuperar un regularizador de estilo (de hecho, es un truco útil para optimizar el parámetro de regularización - doi.org/10.1016/j.neunet.2007.05.005 ). Sin embargo, esa transformación elimina la dependencia de la elección original de la función base. Para que las dos cosas sean iguales requeriría , que generalmente no es cierto (especialmente no para el núcleo RBF). α2 α T K α = μ α T I αKα2αTKα=μαTIα
Dikran Marsupial el
Gracias. Reflexionaré sobre esto, te responderé. Por el momento parece que no estoy a tu nivel de comprensión. Necesito pensar más :).
Cagdas Ozgenc
@CagdasOzgenc no hay problema, la mayoría de los textos estándar lo explican a través de funciones propias de la función del núcleo, ¡lo que también me duele el cerebro! ; o)
Dikran Marsupial