¿Por qué los modelos de proceso gaussianos se llaman no paramétricos?

26

Estoy un poco confundido. ¿Por qué los procesos gaussianos se llaman modelos no paramétricos?

Asumen que los valores funcionales, o un subconjunto de ellos, tienen un gaussiano anterior con media 0 y función de covarianza dada como la función del núcleo. Estas funciones del núcleo tienen algunos parámetros (es decir, hiperparámetros).

Entonces, ¿por qué se llaman modelos no paramétricos?

usuario34790
fuente
1
Conozco varias definiciones de "procesos gaussianos", por lo que no es evidente de qué se trata realmente su pregunta. Pero al considerar cómo aclararlo, pregúntese esto: ¿exactamente cómo parametrizaría el proceso gaussiano que tiene en mente? Si no puede hacerlo de forma natural con un número finito de parámetros reales, entonces debe considerarse no paramétrico.
whuber
@whuber. AFAIK, los principales parámetros de los procesos gaussianos son la media y las funciones de covarianza. Pero a medida que seguimos agregando puntos de datos, siguen aumentando. Por lo tanto, sigue aumentando. ¿Es por eso que los procesos gaussianos se denominan no paramétricos?
user34790
@whuber Si tengo millones de puntos de datos de entrenamiento, mi GP f ~ N (m, k) será una distribución gaussiana multivariada de un millón de dimensiones. ¿No es eso demasiado grande? Quiero decir, a medida que llegan nuevos datos de entrenamiento, cada vez son más grandes. ¿No da lugar a problemas computacionales?
user34790
1
"Paramétrico" versus "no paramétrico" son términos que no se aplican a procesos particulares: se aplican a toda la familia de procesos que podrían ajustarse a los datos. Aunque todavía no sé qué familia tiene en mente, parece que aunque el número de parámetros puede ser finito en cualquier circunstancia, no hay límite para el número de parámetros que pueden aparecer entre los miembros de la familia : ergo, el problema no es paramétrico
whuber

Respuestas:

20

Prefiero esto diciendo que no siempre está claro qué se entiende por "no paramétrico" o "semiparamétrico", etc. En los comentarios, parece probable que whuber tenga alguna definición formal en mente (tal vez algo como elegir un modelo de alguna familia donde es de dimensión infinita), pero voy a ser bastante informal. Algunos podrían argumentar que un método no paramétrico es aquel en el que el número efectivo de parámetros que utiliza aumenta con los datos. Creo que hay un video en videolectures.net donde (creo) Peter Orbanz da cuatro o cinco tomas diferentes sobre cómo podemos definir "no paramétrico".Mθ{Mθ:θΘ}Θ

Como creo que sé qué tipo de cosas tienes en mente, por simplicidad, supondré que estás hablando de usar procesos gaussianos para la regresión, de una manera típica: tenemos datos de entrenamiento estamos interesados ​​en modelar la media condicional . Escribimos y tal vez estamos tan audaces como para suponer que los son iid y normalmente distribuidos, . será unidimensional, pero todo se traslada a dimensiones superiores.(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)

Yi=f(Xi)+ϵi
ϵiϵiN(0,σ2)Xi

Si nuestra puede tomar valores en un continuo, entonces puede considerarse como un parámetro de (infinitamente) dimensión infinita. Entonces, en el sentido de que estamos estimando un parámetro de dimensión infinita , nuestro problema es no paramétrico. Es cierto que el enfoque bayesiano tiene algunos parámetros flotando por aquí y por allá. Pero realmente, se llama no paramétrico porque estamos estimando algo de dimensión infinita. Los GP anteriores que usamos asignan masa a cada vecindario de cada función continua, por lo que pueden estimar bien cualquier función continua arbitrariamente.Xif()

Las cosas en la función de covarianza están jugando un papel similar al de los parámetros de suavizado en los estimadores frecuentistas habituales - a fin de que el problema de no ser absolutamente desesperada tenemos que asumir que hay una cierta estructura que esperamos ver exposiciones. Los bayesianos logran esto mediante el uso de un previo en el espacio de funciones continuas en forma de un proceso gaussiano. Desde una perspectiva bayesiana, estamos codificando creencias sobre asumiendo que se extrae de un GP con tal y tal función de covarianza. Lo anterior penaliza efectivamente las estimaciones de por ser demasiado complicado.ffff

Editar para problemas computacionales

La mayoría (¿todo?) De estas cosas está en el libro del Proceso Gaussiano de Rasmussen y Williams.

Los problemas computacionales son difíciles para los médicos de cabecera. Si procedemos ingenuamente, necesitaremos una memoria de tamaño solo para mantener la matriz de covarianza y (resulta) operaciones para invertirla. Hay algunas cosas que podemos hacer para que las cosas sean más factibles. Una opción es notar que el tipo que realmente necesitamos es , la solución a donde es la matriz de covarianza. El método de gradientes conjugados resuelve esto exactamente en cálculos , pero si nos satisfacemos con una solución aproximada podríamos terminar el algoritmo de gradiente conjugado después de pasos y hacerlo enO(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)cálculos Tampoco necesitamos necesariamente almacenar toda la matriz a la vez.K

Así que nos hemos movido de a , pero esto todavía se escala cuadráticamente en , por lo que podríamos no estar contentos. La siguiente mejor opción es trabajar con un subconjunto de datos, por ejemplo, del tamaño donde invertir y almacenar una matriz no es tan malo. Por supuesto, no queremos simplemente tirar los datos restantes. El enfoque del subconjunto de regresores señala que podemos derivar la media posterior de nuestro GP como una regresión de nuestros datos sobre funciones dependientes de datos determinadas por nuestra función de covarianza; entonces tiramos todos menos de estos a la basura y estamos abajo a los cálculos de .O(N3)O(kN2)Nmm×mYNmO(m2N)

Existen un par de otras posibles opciones. Podríamos construir una aproximación de bajo rango a , y establecer donde es y de rango ; Resulta invirtiendo en este caso se puede hacer por vez invirtiendo . Otra opción es elegir la función de covarianza para que sea escasa y usar métodos de gradiente conjugado; si la matriz de covarianza es muy escasa, esto puede acelerar sustancialmente los cálculos.KK=QQTQn×qqK+σ2IQTQ+σ2I

chico
fuente
8

En términos generales, lo "no paramétrico" en no paramétricos bayesianos se refiere a modelos con un número infinito de parámetros (potenciales). Hay muchos tutoriales y conferencias realmente agradables sobre el tema en videolectures.net ( como este ) que ofrecen buenas descripciones de esta clase de modelos.

Específicamente, el Proceso Gaussiano (GP) se considera no paramétrico porque un GP representa una función (es decir, un vector de dimensión infinita). A medida que aumenta el número de puntos de datos ((x, f (x)) pares), también lo hace el número de 'parámetros' del modelo (restringiendo la forma de la función). A diferencia de un modelo paramétrico, donde el número de parámetros permanece fijo con respecto al tamaño de los datos, en modelos no paramétricos, el número de parámetros crece con el número de puntos de datos.

Mella
fuente
Esto es exactamente lo que estaba asumiendo. Entonces mi suposición es correcta, supongo. Pero mi pregunta es si tengo millones de puntos (datos observados). Entonces mi f también será de un millón de dimensiones. Entonces, ¿no tendría problemas computacionales? Además, mi matriz de covarianza también tendrá un tamaño de 1 millón x 1 millón. Entonces, ¿qué debo hacer en este caso?
user34790
@ user34790 sí, tendría problemas de cálculo. Los desafíos computacionales son un gran problema para los médicos de cabecera. Rasmussen y Williams tienen un libro sobre médicos de cabecera con un capítulo completo dedicado a esto, y si buscas en Google lo suficiente, puedes encontrarlo en línea de forma gratuita. Vea mi publicación actualizada para algunos detalles mínimos.
chico
1

Los parámetros a los que se refirió como hiperparámetros no son parámetros motivados físicamente y, por lo tanto, el nombre. Se utilizan para parametrizar únicamente la función del núcleo. Para dar un ejemplo, en un núcleo gaussiano:

K(xi,xj)=h2exp((xixj)2λ2)

la y son los hiperparámetros pero que no se refieren a cantidades tales como la temperatura, la concentración de la contaminación, etc., que pueden surgir en un verdadero modelo paramétrico.hλ

Este problema también se abordó en esta conferencia , podría ayudar a obtener una mejor comprensión.

camillejr
fuente