Estoy un poco confundido. ¿Por qué los procesos gaussianos se llaman modelos no paramétricos?
Asumen que los valores funcionales, o un subconjunto de ellos, tienen un gaussiano anterior con media 0 y función de covarianza dada como la función del núcleo. Estas funciones del núcleo tienen algunos parámetros (es decir, hiperparámetros).
Entonces, ¿por qué se llaman modelos no paramétricos?
nonparametric
gaussian-process
usuario34790
fuente
fuente
Respuestas:
Prefiero esto diciendo que no siempre está claro qué se entiende por "no paramétrico" o "semiparamétrico", etc. En los comentarios, parece probable que whuber tenga alguna definición formal en mente (tal vez algo como elegir un modelo de alguna familia donde es de dimensión infinita), pero voy a ser bastante informal. Algunos podrían argumentar que un método no paramétrico es aquel en el que el número efectivo de parámetros que utiliza aumenta con los datos. Creo que hay un video en videolectures.net donde (creo) Peter Orbanz da cuatro o cinco tomas diferentes sobre cómo podemos definir "no paramétrico".Mθ {Mθ:θ∈Θ} Θ
Como creo que sé qué tipo de cosas tienes en mente, por simplicidad, supondré que estás hablando de usar procesos gaussianos para la regresión, de una manera típica: tenemos datos de entrenamiento estamos interesados en modelar la media condicional . Escribimos y tal vez estamos tan audaces como para suponer que los son iid y normalmente distribuidos, . será unidimensional, pero todo se traslada a dimensiones superiores.(Yi,Xi),i=1,...,n E(Y|X=x):=f(x)
Si nuestra puede tomar valores en un continuo, entonces puede considerarse como un parámetro de (infinitamente) dimensión infinita. Entonces, en el sentido de que estamos estimando un parámetro de dimensión infinita , nuestro problema es no paramétrico. Es cierto que el enfoque bayesiano tiene algunos parámetros flotando por aquí y por allá. Pero realmente, se llama no paramétrico porque estamos estimando algo de dimensión infinita. Los GP anteriores que usamos asignan masa a cada vecindario de cada función continua, por lo que pueden estimar bien cualquier función continua arbitrariamente.Xi f(⋅)
Las cosas en la función de covarianza están jugando un papel similar al de los parámetros de suavizado en los estimadores frecuentistas habituales - a fin de que el problema de no ser absolutamente desesperada tenemos que asumir que hay una cierta estructura que esperamos ver exposiciones. Los bayesianos logran esto mediante el uso de un previo en el espacio de funciones continuas en forma de un proceso gaussiano. Desde una perspectiva bayesiana, estamos codificando creencias sobre asumiendo que se extrae de un GP con tal y tal función de covarianza. Lo anterior penaliza efectivamente las estimaciones de por ser demasiado complicado.f f f f
Editar para problemas computacionales
La mayoría (¿todo?) De estas cosas está en el libro del Proceso Gaussiano de Rasmussen y Williams.
Los problemas computacionales son difíciles para los médicos de cabecera. Si procedemos ingenuamente, necesitaremos una memoria de tamaño solo para mantener la matriz de covarianza y (resulta) operaciones para invertirla. Hay algunas cosas que podemos hacer para que las cosas sean más factibles. Una opción es notar que el tipo que realmente necesitamos es , la solución a donde es la matriz de covarianza. El método de gradientes conjugados resuelve esto exactamente en cálculos , pero si nos satisfacemos con una solución aproximada podríamos terminar el algoritmo de gradiente conjugado después de pasos y hacerlo enO(N2) O(N3) v (K+σ2I)v=Y K O(N3) k O(kN2) cálculos Tampoco necesitamos necesariamente almacenar toda la matriz a la vez.K
Así que nos hemos movido de a , pero esto todavía se escala cuadráticamente en , por lo que podríamos no estar contentos. La siguiente mejor opción es trabajar con un subconjunto de datos, por ejemplo, del tamaño donde invertir y almacenar una matriz no es tan malo. Por supuesto, no queremos simplemente tirar los datos restantes. El enfoque del subconjunto de regresores señala que podemos derivar la media posterior de nuestro GP como una regresión de nuestros datos sobre funciones dependientes de datos determinadas por nuestra función de covarianza; entonces tiramos todos menos de estos a la basura y estamos abajo a los cálculos de .O(N3) O(kN2) N m m×m Y N m O(m2N)
Existen un par de otras posibles opciones. Podríamos construir una aproximación de bajo rango a , y establecer donde es y de rango ; Resulta invirtiendo en este caso se puede hacer por vez invirtiendo . Otra opción es elegir la función de covarianza para que sea escasa y usar métodos de gradiente conjugado; si la matriz de covarianza es muy escasa, esto puede acelerar sustancialmente los cálculos.K K=QQT Q n×q q K+σ2I QTQ+σ2I
fuente
En términos generales, lo "no paramétrico" en no paramétricos bayesianos se refiere a modelos con un número infinito de parámetros (potenciales). Hay muchos tutoriales y conferencias realmente agradables sobre el tema en videolectures.net ( como este ) que ofrecen buenas descripciones de esta clase de modelos.
Específicamente, el Proceso Gaussiano (GP) se considera no paramétrico porque un GP representa una función (es decir, un vector de dimensión infinita). A medida que aumenta el número de puntos de datos ((x, f (x)) pares), también lo hace el número de 'parámetros' del modelo (restringiendo la forma de la función). A diferencia de un modelo paramétrico, donde el número de parámetros permanece fijo con respecto al tamaño de los datos, en modelos no paramétricos, el número de parámetros crece con el número de puntos de datos.
fuente
Los parámetros a los que se refirió como hiperparámetros no son parámetros motivados físicamente y, por lo tanto, el nombre. Se utilizan para parametrizar únicamente la función del núcleo. Para dar un ejemplo, en un núcleo gaussiano:
la y son los hiperparámetros pero que no se refieren a cantidades tales como la temperatura, la concentración de la contaminación, etc., que pueden surgir en un verdadero modelo paramétrico.h λ
Este problema también se abordó en esta conferencia , podría ayudar a obtener una mejor comprensión.
fuente