Estoy usando el proceso Gaussiano (GP) para la regresión.
En mi problema, es bastante común que dos o más puntos de datos estén cerca uno del otro, relativamente a la longitud escalas del problema. Además, las observaciones pueden ser extremadamente ruidosas. Para acelerar los cálculos y mejorar la precisión de la medición , parece natural fusionar / integrar grupos de puntos que están cerca uno del otro, siempre que me interesen las predicciones en una escala de longitud mayor.
Me pregunto cuál es una forma rápida pero semi-de principios de hacer esto.
Si dos puntos de datos se superponen perfectamente, , y el ruido de observación (es decir, la probabilidad) es gaussiano, posiblemente heterocedastic pero conocido , la forma natural de proceder parece fusionarlos en un único punto de datos con:
, para .
Valor observado que es un promedio de los valores observados ponderado por su precisión relativa: . y(1),y(2) ˉ y =σ 2 y ( → x ( 2 ) )
Ruido asociado con la observación igual a: .
Sin embargo, ¿cómo debería fusionar dos puntos cercanos pero que no se superponen?
Creo que aún debería ser un promedio ponderado de las dos posiciones, nuevamente usando la confiabilidad relativa. La razón es un argumento de centro de masa (es decir, piense en una observación muy precisa como una pila de observaciones menos precisas).
Para misma fórmula que la anterior.
Para el ruido asociado a la observación, me pregunto si, además de la fórmula anterior, debo agregar un término de corrección al ruido porque estoy moviendo el punto de datos. Esencialmente, obtendría un aumento en la incertidumbre relacionada con y (respectivamente, varianza de señal y escala de longitud de la función de covarianza). No estoy seguro de la forma de este término, pero tengo algunas ideas tentativas sobre cómo calcularlo dada la función de covarianza. ℓ 2
Antes de continuar, me preguntaba si ya había algo allí afuera; y si esto parece ser una forma sensata de proceder, o si hay mejores métodos rápidos .
Lo más cercano que pude encontrar en la literatura es este artículo: E. Snelson y Z. Ghahramani, Sparse Gaussian Processes using Pseudo-input , NIPS '05; pero su método está (relativamente) involucrado, requiriendo una optimización para encontrar las pseudo-entradas.
Respuestas:
Gran pregunta y lo que estás sugiriendo suena razonable. Sin embargo, personalmente, procedería de manera diferente para ser eficiente. Como dijiste, dos puntos cercanos proporcionan poca información adicional y, por lo tanto, los grados efectivos de libertad del modelo son menores que el número de puntos de datos observados. En tal caso, puede valer la pena usar el método de Nystroms que se describe bien en GPML (se puede ver el capítulo sobre aproximaciones dispersas http://www.gaussianprocess.org/gpml/ ). El método es muy fácil de implementar y recientemente Rudi et al. ( http://arxiv.org/abs/1507.04717 )
fuente
También he estado investigando la fusión de observaciones al realizar la regresión del Proceso Gaussiano. En mi problema solo tengo una covariable.
No estoy seguro de estar necesariamente de acuerdo en que la aproximación de Nystrom es preferible. En particular, si se puede encontrar una aproximación suficiente basada en un conjunto de datos combinado, los cálculos podrían ser más rápidos que cuando se usa la aproximación de Nystrom.
A continuación se muestran algunos gráficos que muestran 1000 puntos de datos y la media de GP posterior, la media de GP posterior con registros combinados y la media de GP posterior utilizando la aproximación de Nystrom. Los registros se agruparon en función de cubos de igual tamaño de la covariable ordenada. El orden de aproximación se relaciona con el número de grupos al fusionar registros y el orden de la aproximación de Nystrom. El enfoque de fusión y la aproximación de Nystrom producen resultados que son idénticos a la regresión GP estándar cuando el orden de aproximación es igual al número de puntos.
En este caso, cuando el orden de la aproximación es 10, el enfoque de fusión parece preferible. Cuando el orden es 20, la media de la aproximación de Nystrom es visualmente indistinguible de la media posterior exacta de GP, aunque la media basada en observaciones de fusión es probablemente lo suficientemente buena. Cuando el pedido es 5, ambos son bastante pobres.
fuente