¿Qué es una distribución sobre funciones?

15

Estoy leyendo un libro de texto Proceso Gaussiano para Aprendizaje Automático por CE Rasmussen y CKI Williams y tengo algunos problemas para entender qué significa la distribución sobre las funciones . En el libro de texto, se da un ejemplo, que uno debería imaginar una función como un vector muy largo (de hecho, ¿debería ser infinitamente largo?). Así que imagino que una distribución sobre funciones es una distribución de probabilidad dibujada "por encima" de tales valores vectoriales. ¿Sería entonces una probabilidad de que una función tome este valor particular? ¿O sería una probabilidad de que una función tome un valor que esté en un rango dado? ¿O es la distribución sobre funciones una probabilidad asignada a una función completa?

Citas del libro de texto:

Capítulo 1: Introducción, página 2

Un proceso gaussiano es una generalización de la distribución de probabilidad gaussiana. Mientras que una distribución de probabilidad describe variables aleatorias que son escalares o vectores (para distribuciones multivariadas), un proceso estocástico gobierna las propiedades de las funciones. Dejando a un lado la sofisticación matemática, uno puede pensar libremente en una función como un vector muy largo, cada entrada en el vector especifica el valor de la función f (x) en una entrada particular x. Resulta que, aunque esta idea es un poco ingenua, sorprendentemente está cerca de lo que necesitamos. De hecho, la cuestión de cómo lidiar computacionalmente con estos objetos de dimensiones infinitas tiene la resolución más agradable imaginable: si solo pregunta por las propiedades de la función en un número finito de puntos,

Capítulo 2: Regresión, página 7

Hay varias formas de interpretar los modelos de regresión del proceso gaussiano (GP). Uno puede pensar en un proceso gaussiano como la definición de una distribución sobre funciones , y la inferencia que tiene lugar directamente en el espacio de funciones, la vista del espacio de funciones.


De la pregunta inicial:

Hice esta imagen conceptual para tratar de visualizar esto por mí mismo. No estoy seguro si la explicación que hice para mí es correcta.

ingrese la descripción de la imagen aquí


Después de la actualización:

Después de la respuesta de Gijs , actualicé la imagen para que fuera más conceptual:

ingrese la descripción de la imagen aquí

camillejr
fuente
3
mira
bicepjai

Respuestas:

11

El concepto es un poco más abstracto que una distribución habitual. El problema es que estamos acostumbrados al concepto de una distribución sobre R , que generalmente se muestra como una línea, y luego la expandimos a una superficie R2 , y así sucesivamente a distribuciones sobre Rn . Pero el espacio de funciones no puede representarse como un cuadrado, una línea o un vector. No es un delito pensar de esa manera, como tú, pero la teoría que funciona en Rn , que tiene que ver con la distancia, los vecindarios y demás (esto se conoce como la topología del espacio), no es lo mismo en el espacio de funciones. Entonces dibujarlo como un cuadrado puede darle intuiciones equivocadas sobre ese espacio.

Simplemente puede pensar en el espacio de funciones como una gran colección de funciones, tal vez una bolsa de cosas si lo desea. La distribución aquí le brinda las probabilidades de dibujar un subconjunto de esas cosas. La distribución dirá: la probabilidad de que su próximo sorteo (de una función) esté en este subconjunto es, por ejemplo, 10%. En el caso de un proceso gaussiano sobre funciones en dos dimensiones, puede preguntar, dada una xcoordenada y un intervalo dey-valores, este es un pequeño segmento de línea vertical, ¿cuál es la probabilidad de que una función (aleatoria) pase a través de esta pequeña línea? Esa será una probabilidad positiva. Entonces, el proceso gaussiano especifica una distribución (de probabilidad) sobre un espacio de funciones. En este ejemplo, el subconjunto del espacio de funciones es el subconjunto que pasa a través del segmento de línea.

Otro concepto de denominación confuso aquí es que una distribución se especifica comúnmente mediante una función de densidad , como la forma de la campana con la distribución normal. Allí, el área debajo de la función de distribución le dice cuán probable es un intervalo. Sin embargo, esto no funciona para todas las distribuciones, y en particular, en el caso de funciones (no R como con las distribuciones normales), esto no funciona en absoluto. Eso significa que no podrá escribir esta distribución (como lo especifica el proceso gaussiano) como una función de densidad.

Gijs
fuente
1
Gracias, para aclarar, esto no es una distribución sobre los valores de una función, sino una distribución sobre una colección de funciones, ¿verdad? Una pregunta más que tengo: usted ha dicho que esto sería una probabilidad de que una función aleatoria pase a través de cierto intervalo, por lo que en el ejemplo de GPR, sería una función aleatoria pero de una "familia" específica de funciones dada por el núcleo de covarianza?
camillejr
2
Sí, es una distribución sobre una colección de funciones. El ejemplo de pasar por un intervalo se aplica si tiene un proceso gaussiano. El núcleo de covarianza especificará realmente un proceso gaussiano. Entonces, si conoce un núcleo de covarianza, puede calcular la probabilidad de que una función aleatoria pase por un intervalo específico.
Gijs
14

Su pregunta ya ha sido formulada, y bellamente respondida, en el sitio de Mathematics SE:

/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions

Parece que no estás familiarizado con los conceptos de medidas gaussianas en espacios de dimensiones infinitas , funciones lineales, medidas de avance, etc., por lo tanto, trataré de mantenerlo lo más simple posible.

Ya sabe cómo definir probabilidades sobre números reales (variables aleatorias) y sobre vectores (nuevamente, variables aleatorias, incluso si generalmente los llamamos vectores aleatorios). Ahora queremos introducir una medida de probabilidad sobre un espacio vectorial de dimensión infinita: por ejemplo, el espacioL2([0,1])I=[0,1]RRn , nos ayudó el hecho de que la medida de Lebesgue se define en ambos espacios. Sin embargo,L2 (o cualquier espacio de Banach de dimensión infinita, para el caso). Hay varias soluciones a este enigma, la mayoría de las cuales necesitan una buena familiaridad con el Análisis Funcional.

Sin embargo, también hay un simple "truco" basado en el teorema de extensión de Kolmogorov , que es básicamente la forma en que se introducen los procesos estocásticos en la mayoría de los cursos de probabilidad que no son muy teóricos de medida. Ahora voy a ser muy ondulado y no riguroso, y me limitaré al caso de los procesos gaussianos. Si desea una definición más general, puede leer la respuesta anterior o buscar el enlace de Wikipedia. El teorema de extensión de Kolmogorov, aplicado a su caso de uso específico, establece más o menos lo siguiente:

  • supongamos que, para cada conjunto finito de puntos Sn={t1,,tn}Ixn=(x(t1),,x(tn)) tiene la distribución gaussiana multivariada
  • supongamos ahora que para todo lo posible Sn,Sm,SnSmfSn(x1,,xn)fSm(x1,,xn,xn+1,,xm)fSmSmSnfSn

Rnm+1fSm(x1,,xn,xn+1,,xm)dxn+1dxm=fSn(x1,,xn)

  • XL2Snn

El teorema real es ampliamente más general, pero supongo que esto es lo que estabas buscando.

DeltaIV
fuente