Estoy leyendo un libro de texto Proceso Gaussiano para Aprendizaje Automático por CE Rasmussen y CKI Williams y tengo algunos problemas para entender qué significa la distribución sobre las funciones . En el libro de texto, se da un ejemplo, que uno debería imaginar una función como un vector muy largo (de hecho, ¿debería ser infinitamente largo?). Así que imagino que una distribución sobre funciones es una distribución de probabilidad dibujada "por encima" de tales valores vectoriales. ¿Sería entonces una probabilidad de que una función tome este valor particular? ¿O sería una probabilidad de que una función tome un valor que esté en un rango dado? ¿O es la distribución sobre funciones una probabilidad asignada a una función completa?
Citas del libro de texto:
Capítulo 1: Introducción, página 2
Un proceso gaussiano es una generalización de la distribución de probabilidad gaussiana. Mientras que una distribución de probabilidad describe variables aleatorias que son escalares o vectores (para distribuciones multivariadas), un proceso estocástico gobierna las propiedades de las funciones. Dejando a un lado la sofisticación matemática, uno puede pensar libremente en una función como un vector muy largo, cada entrada en el vector especifica el valor de la función f (x) en una entrada particular x. Resulta que, aunque esta idea es un poco ingenua, sorprendentemente está cerca de lo que necesitamos. De hecho, la cuestión de cómo lidiar computacionalmente con estos objetos de dimensiones infinitas tiene la resolución más agradable imaginable: si solo pregunta por las propiedades de la función en un número finito de puntos,
Capítulo 2: Regresión, página 7
Hay varias formas de interpretar los modelos de regresión del proceso gaussiano (GP). Uno puede pensar en un proceso gaussiano como la definición de una distribución sobre funciones , y la inferencia que tiene lugar directamente en el espacio de funciones, la vista del espacio de funciones.
De la pregunta inicial:
Hice esta imagen conceptual para tratar de visualizar esto por mí mismo. No estoy seguro si la explicación que hice para mí es correcta.
Después de la actualización:
Después de la respuesta de Gijs , actualicé la imagen para que fuera más conceptual:
fuente
Respuestas:
El concepto es un poco más abstracto que una distribución habitual. El problema es que estamos acostumbrados al concepto de una distribución sobreR , que generalmente se muestra como una línea, y luego la expandimos a una superficie R2 , y así sucesivamente a distribuciones sobre Rn . Pero el espacio de funciones no puede representarse como un cuadrado, una línea o un vector. No es un delito pensar de esa manera, como tú, pero la teoría que funciona en Rn , que tiene que ver con la distancia, los vecindarios y demás (esto se conoce como la topología del espacio), no es lo mismo en el espacio de funciones. Entonces dibujarlo como un cuadrado puede darle intuiciones equivocadas sobre ese espacio.
Simplemente puede pensar en el espacio de funciones como una gran colección de funciones, tal vez una bolsa de cosas si lo desea. La distribución aquí le brinda las probabilidades de dibujar un subconjunto de esas cosas. La distribución dirá: la probabilidad de que su próximo sorteo (de una función) esté en este subconjunto es, por ejemplo, 10%. En el caso de un proceso gaussiano sobre funciones en dos dimensiones, puede preguntar, dada una
x
coordenada y un intervalo dey
-valores, este es un pequeño segmento de línea vertical, ¿cuál es la probabilidad de que una función (aleatoria) pase a través de esta pequeña línea? Esa será una probabilidad positiva. Entonces, el proceso gaussiano especifica una distribución (de probabilidad) sobre un espacio de funciones. En este ejemplo, el subconjunto del espacio de funciones es el subconjunto que pasa a través del segmento de línea.Otro concepto de denominación confuso aquí es que una distribución se especifica comúnmente mediante una función de densidad , como la forma de la campana con la distribución normal. Allí, el área debajo de la función de distribución le dice cuán probable es un intervalo. Sin embargo, esto no funciona para todas las distribuciones, y en particular, en el caso de funciones (noR como con las distribuciones normales), esto no funciona en absoluto. Eso significa que no podrá escribir esta distribución (como lo especifica el proceso gaussiano) como una función de densidad.
fuente
Su pregunta ya ha sido formulada, y bellamente respondida, en el sitio de Mathematics SE:
/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions
Parece que no estás familiarizado con los conceptos de medidas gaussianas en espacios de dimensiones infinitas , funciones lineales, medidas de avance, etc., por lo tanto, trataré de mantenerlo lo más simple posible.
Ya sabe cómo definir probabilidades sobre números reales (variables aleatorias) y sobre vectores (nuevamente, variables aleatorias, incluso si generalmente los llamamos vectores aleatorios). Ahora queremos introducir una medida de probabilidad sobre un espacio vectorial de dimensión infinita: por ejemplo, el espacioL2([0,1]) I=[0,1] R Rn , nos ayudó el hecho de que la medida de Lebesgue se define en ambos espacios. Sin embargo,L2 (o cualquier espacio de Banach de dimensión infinita, para el caso). Hay varias soluciones a este enigma, la mayoría de las cuales necesitan una buena familiaridad con el Análisis Funcional.
Sin embargo, también hay un simple "truco" basado en el teorema de extensión de Kolmogorov , que es básicamente la forma en que se introducen los procesos estocásticos en la mayoría de los cursos de probabilidad que no son muy teóricos de medida. Ahora voy a ser muy ondulado y no riguroso, y me limitaré al caso de los procesos gaussianos. Si desea una definición más general, puede leer la respuesta anterior o buscar el enlace de Wikipedia. El teorema de extensión de Kolmogorov, aplicado a su caso de uso específico, establece más o menos lo siguiente:
El teorema real es ampliamente más general, pero supongo que esto es lo que estabas buscando.
fuente