Mapa de características para el núcleo gaussiano

24

x,yRnϕ

K(x,y)=exp(xy222σ2)=ϕ(x)Tϕ(y)
x,yRnϕ

También quiero saber si

iciϕ(xi)=ϕ(icixi)
donde ciR . Ahora, creo que no es igual, porque el uso de un núcleo maneja la situación en la que el clasificador lineal no funciona. Sé que ϕ proyecta x en un espacio infinito. Entonces, si sigue siendo lineal, no importa cuántas dimensiones tenga, svm aún no puede hacer una buena clasificación.
Vivian
fuente
¿Por qué este núcleo implica una transformación? ¿O te refieres al espacio de características asociado?
Placidia
Sí, ¿cuál es el espacio de características para queϕ()ϕT(x)ϕ(x)=exp(12σ2xx2)
usuario27886

Respuestas:

20

Puede obtener la ecuación explícita de para el núcleo gaussiano a través de la expansión de la serie Tailor de e x . Para simplificar la notación, suponga x R 1 :ϕexxR1

ϕ(x)=ex2/2σ2[1,11!σ2x,12!σ4x2,13!σ6x3,]T

Esto también se discute con más detalle en estas diapositivas por Chih-Jen Lin de NTU (diapositiva 11 específicamente). Tenga en cuenta que en las diapositivas se usa como parámetro del núcleo.γ=12σ2

La ecuación en el OP solo se cumple para el núcleo lineal.

Marc Claesen
fuente
2
Hola, pero esta ecuación anterior solo se adapta a una dimensión.
Vivian
Entonces, aquí, el espacio de reproducción del núcleo de Hilbert es un subespacio de , ¿correcto? 2
The_Anomaly
¿Existe también una representación explícita del núcleo laplaciano?
Felix Crazzolara
13

Para cualquier psd válido kernel , existe un mapa de características φ : XH tal que k ( x , y ) = φ ( x ) , φ ( y ) H . De hecho, el espacio H y la incrustación φ no necesitan ser únicos, pero hay un par único importante ( H , φ ) conocido como el espacio de reproducción de Hilbert del núcleo (RKHS).k:X×XRφ:XHk(x,y)=φ(x),φ(y)HHφ(H,φ)

El RKHS es discutido por: Steinwart, Hush and Scovel, Una descripción explícita del espacio de reproducción Hilbert Spaces of Gaussian RBF Kernels , IEEE Transactions on Information Theory 2006 ( doi , citeeer pdf gratuito ).

Es algo complicado, pero se reduce a esto: defina como e n ( z ) : = en:CC

en(z):=(2σ2)nn!zneσ2z2.

Sea una secuencia que abarca todas las d -tuplas de enteros no negativos; si d = 3 , quizás n ( 0 ) = ( 0 , 0 , 0 ) , n ( 1 ) = ( 0 , 0 , 1 ) , n ( 2 ) = ( 0 , 1 , 1 )n:N0N0ddd=3n(0)=(0,0,0)n(1)=(0,0,1)n(2)=(0,1,1), y así. Denotan la componente ésimo de la i º tupla por n i j .jinij

Entonces el componente número de φ ( x ) es d j = 1 e n i j ( x j ) . Entonces φ asigna vectores en R d a vectores complejos de dimensiones infinitas.iφ(x)j=1denij(xj)φRd

El problema con esto es que además tenemos que definir normas para estos vectores complejos de dimensión infinita de una manera especial; Vea el documento para más detalles.


Steinwart y col. También proporciono una integración más directa (a mi parecer) en , el espacio de Hilbert de funciones integrables al cuadrado de R dR : Φ σ ( x ) = ( 2 σ ) dL2(Rd)RdR

Φσ(x)=(2σ)d2πd4e2σ2x22.
Φσ(x)RdRdx14σ2I; only the normalizing constant is different. Thus when we take
Φ(x),Φ(y)L2=[Φ(x)](t)[Φ(y)](t)dt,
we're taking the product of Gaussian density functions, which is itself a certain constant times a Gaussian density functions. When you do that integral by t, then, the constant that falls out ends up being exactly k(x,y).

These are not the only embeddings that work.

Another is based on the Fourier transform, which the celebrated paper of Rahimi and Recht (Random Features for Large-Scale Kernel Machines, NIPS 2007) approximates to great effect.

You can also do it using Taylor series: effectively the infinite version of Cotter, Keshet, and Srebro, Explicit Approximations of the Gaussian Kernel, arXiv:1109.4603.

Dougal
fuente
1
Douglas Zare gave a 1d version of the "more straightforward" embedding in an interesting thread here.
Dougal
Here you find a more 'intuitive' explanation that the Φ can map onto a spave of dimension equal to the size of the training sample, even for an infinite training sample: stats.stackexchange.com/questions/80398/…
6

It seems to me that your second equation will only be true if ϕ is a linear mapping (and hence K is a linear kernel). As the Gaussian kernel is non-linear, the equality will not hold (except perhaps in the limit as σ goes to zero).

Dikran Marsupial
fuente
thank you for your answer. When σ0, the dimension of the Gaussian kernel projects would increase. And by your inspiration, now I think it is not equal. Because, using kernel just handle the situation that linear classification does not work.
Vivian