Fusionar observaciones en el proceso gaussiano

11

Estoy usando el proceso Gaussiano (GP) para la regresión.

En mi problema, es bastante común que dos o más puntos de datos estén cerca uno del otro, relativamente a la longitud escalas del problema. Además, las observaciones pueden ser extremadamente ruidosas. Para acelerar los cálculos y mejorar la precisión de la medición , parece natural fusionar / integrar grupos de puntos que están cerca uno del otro, siempre que me interesen las predicciones en una escala de longitud mayor.x(1),x(2),

Me pregunto cuál es una forma rápida pero semi-de principios de hacer esto.

Si dos puntos de datos se superponen perfectamente, , y el ruido de observación (es decir, la probabilidad) es gaussiano, posiblemente heterocedastic pero conocido , la forma natural de proceder parece fusionarlos en un único punto de datos con:x(1)=x(2)

  • x¯x(k) , para .k=1,2

  • Valor observado que es un promedio de los valores observados ponderado por su precisión relativa: . y(1),y(2) ˉ y =σ 2 y (x ( 2 ) )y¯y(1),y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • Ruido asociado con la observación igual a: .σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

Sin embargo, ¿cómo debería fusionar dos puntos cercanos pero que no se superponen?

  • Creo que aún debería ser un promedio ponderado de las dos posiciones, nuevamente usando la confiabilidad relativa. La razón es un argumento de centro de masa (es decir, piense en una observación muy precisa como una pila de observaciones menos precisas).x¯

  • Para misma fórmula que la anterior.y¯

  • Para el ruido asociado a la observación, me pregunto si, además de la fórmula anterior, debo agregar un término de corrección al ruido porque estoy moviendo el punto de datos. Esencialmente, obtendría un aumento en la incertidumbre relacionada con y (respectivamente, varianza de señal y escala de longitud de la función de covarianza). No estoy seguro de la forma de este término, pero tengo algunas ideas tentativas sobre cómo calcularlo dada la función de covarianza.2σf22

Antes de continuar, me preguntaba si ya había algo allí afuera; y si esto parece ser una forma sensata de proceder, o si hay mejores métodos rápidos .

Lo más cercano que pude encontrar en la literatura es este artículo: E. Snelson y Z. Ghahramani, Sparse Gaussian Processes using Pseudo-input , NIPS '05; pero su método está (relativamente) involucrado, requiriendo una optimización para encontrar las pseudo-entradas.

lacerbi
fuente
1
Por cierto, aprecio que pueda usar inferencia aproximada o algunos métodos a gran escala, pero este es otro punto.
lacerbi

Respuestas:

4

Gran pregunta y lo que estás sugiriendo suena razonable. Sin embargo, personalmente, procedería de manera diferente para ser eficiente. Como dijiste, dos puntos cercanos proporcionan poca información adicional y, por lo tanto, los grados efectivos de libertad del modelo son menores que el número de puntos de datos observados. En tal caso, puede valer la pena usar el método de Nystroms que se describe bien en GPML (se puede ver el capítulo sobre aproximaciones dispersas http://www.gaussianprocess.org/gpml/ ). El método es muy fácil de implementar y recientemente Rudi et al. ( http://arxiv.org/abs/1507.04717 )

j__
fuente
Gracias, el método de Nystrom parece un enfoque interesante, lo investigaré. Sin embargo, en mi primera publicación, me olvidé de mencionar que el ruido en las observaciones puede ser muy alto (posiblemente más grande que la señal), por lo que promediar los puntos cercanos proporcionará información adicional.
lacerbi
1
Bueno, eso es incluso una razón más para usar el método Nystroms. El ruido alto reduce los grados efectivos de libertad, por lo que si solo los primeros valores propios retienen la señal y el resto es simplemente ruido, el método de Nystroms los reducirá a todos menos que los primeros m. Creo que se ajustará a la factura de lo que estás buscando. ¡La mejor de las suertes!
j__
El método de Nystrom es lo que sugeriría (+1). Simplemente fusionar los puntos en uno puede tener problemas para estimar la probabilidad marginal del modelo, ya que es poco probable que los dos puntos de datos genuinos tengan el mismo efecto que un solo punto. Mi consejo sería mantener los dos puntos separados, pero encontrar una manera de hacer que el cálculo sea menos costoso, que el método Nystrom debería lograr,
Dikran Marsupial
¿Qué tipo de problemas? Si considera el caso de dos puntos superpuestos con ruido gaussiano, entonces el método de promediación es exacto (siempre y cuando realice un seguimiento de la disminución en el ruido de observación). No veo por qué el mismo argumento no debería funcionar para los puntos que están cerca de la escala de longitud del problema (con la aproximación empeorando con el aumento de la distancia). Quizás esto es lo que hace el método de Nystrom, de una manera más basada en principios: todavía necesito entender los detalles. Tengo curiosidad por compararlo con el método de promedio, tanto en términos de precisión como de velocidad. Gracias
lacerbi
1
@Seeda, no estamos usando nystrom como un preacondicionamiento efectivo en lugar de la habitual conximetría de tiempo reducido, así que sí.
j__
1

También he estado investigando la fusión de observaciones al realizar la regresión del Proceso Gaussiano. En mi problema solo tengo una covariable.

No estoy seguro de estar necesariamente de acuerdo en que la aproximación de Nystrom es preferible. En particular, si se puede encontrar una aproximación suficiente basada en un conjunto de datos combinado, los cálculos podrían ser más rápidos que cuando se usa la aproximación de Nystrom.

A continuación se muestran algunos gráficos que muestran 1000 puntos de datos y la media de GP posterior, la media de GP posterior con registros combinados y la media de GP posterior utilizando la aproximación de Nystrom. Los registros se agruparon en función de cubos de igual tamaño de la covariable ordenada. El orden de aproximación se relaciona con el número de grupos al fusionar registros y el orden de la aproximación de Nystrom. El enfoque de fusión y la aproximación de Nystrom producen resultados que son idénticos a la regresión GP estándar cuando el orden de aproximación es igual al número de puntos.

En este caso, cuando el orden de la aproximación es 10, el enfoque de fusión parece preferible. Cuando el orden es 20, la media de la aproximación de Nystrom es visualmente indistinguible de la media posterior exacta de GP, aunque la media basada en observaciones de fusión es probablemente lo suficientemente buena. Cuando el pedido es 5, ambos son bastante pobres.

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí

Richard Redding
fuente