Procesos gaussianos con área de muestreo finito

Pido disculpas de antemano si esta pregunta está mal planteada: soy astrónomo, no estadístico. Mi pregunta está dirigida específicamente a ayudarme a descubrir si los procesos gaussianos son una técnica apropiada para mi problema.

Utilizando un telescopio y un espectrógrafo alimentado con fibra, mi proyecto ha tomado el espectro óptico de una galaxia en muchos lugares. El patrón de muestreo para un solo apunte está en la primera imagen, y se repite tres veces en total, con diferentes desplazamientos espaciales, para llenar los espacios (segunda imagen). Idealmente, me gustaría construir estimaciones de ciertas cantidades sobre una cuadrícula que cubre la galaxia.

Mi método ingenuo sería analizar el espectro de cada fibra por separado, de modo que tuviera puntos de estimación de las cantidades de interés, y luego construir un proceso gaussiano para estimar esas cantidades en todas partes. Del mismo modo, podría construir un proceso gaussiano para los espectros en sí, luego analizar el GP en mi cuadrícula de elección para encontrar las cantidades que me interesan. Sin embargo, no estoy seguro de que este sea un enfoque válido, ya que mis observaciones son no discreto, sino que coinciden. $3 N_{fibers}$

A diferencia de, por ejemplo, los científicos del suelo, que pueden tomar muestras de tierra desde una ubicación muy discreta, y luego alejarse 50 metros y repetir, mis observaciones se superponen espacialmente, por lo que me estoy integrando sobre toda la luz que emite una galaxia. No es obvio para mí que se me permita descuidar cualquier variación espacial que pueda existir dentro de una medida dada. En otras palabras, ¿es un proceso gaussiano incluso válido cuando las ubicaciones de muestreo individuales no son pequeñas? ¿Puedo construir un término espacial adicional para explicar la "mezcla" ligera dentro de una sola fibra?

Anexo: Tradicionalmente, los espectros solo se interpolan, se vuelven a muestrear en una cuadrícula y luego se analizan, lo que también me parece extremadamente incorrecto, pero si voy a llover en los desfiles de colegas, al menos quiero presentar un método alternativo.

gaussian-process DathosPachy
fuente

Respuestas:

Creo que sus dos preguntas aclaran el problema. Parece que puede usar GP para alguna parte del problema, pero es posible que deba hacer más. Para explicar los problemas que veo, primero traduciré mi comprensión de su problema a un lenguaje más matemático:

El problema

Estás interesado en alguna cantidad física $f(x)$ ("espectros"?) donde $x$ es un punto en algún dominio del avión (tu foto). $f$ es escalar, es decir, un número único para cada punto del plano. No puedes observar $f$ directamente, solo se puede observar un promedio espacial $F$ en algunos puntos $s_k$ de una cuadrícula. Es decir, observas

F (s_{k}) = \int_{D_{k}} f (x) d x .

$F(s_k) = \int_{D_k} f(x)dx.$ los

D_{k}

$D_k$ son los diversos discos superpuestos en tu foto. No lo mencionó, pero tal vez también haya algo de ruido de medición en sus observaciones, entonces necesitaría agregar un término de ruido

ϵ

$\epsilon$ en el RHS.

¿Qué pasa con los médicos de cabecera?

Está absolutamente bien ajustar un GP a sus observaciones y obtendrá una aproximación o interpolación GP válida de $F$ . Al GP realmente no le importa que tu $F$ está hecho de discos superpuestos, notará y reflejará la cantidad correcta de correlación para valores suficientemente cercanos entre sí. El problema es, por supuesto, que esto producirá un GP para $F$ no uno para $f$ . Y $F$ no será una aproximación (buena / razonable) de $f$ a no ser que $f$ es más o menos constante en el $D_k$ .

Cómo recuperarse $f$ ?

Hay diferentes formas de recuperarse. $f$ desde $F$ . Lo que es factible o incluso "mejor" depende de sus requisitos específicos y de los detalles del problema. Como sabes la función media $m_F$ de $F$ explícitamente puede intentar alguna forma de deconvolución numérica.

Una forma más enérgica de GP es hacer la suposición de que $f$ es un médico de cabecera con función media $m$ y función de covarianza $K$ . La teoría matemática te dice entonces que $F$ es un GP también con función media

{metro}_{F} (s) = \int_{{re}_{s}} metro (X) re X

$m_F(s) = \int_{D_s}m(x)dx$ y covarianza

K_{F} (s_{1}, s_{2}) = \int_{{re}_{s_{1}}} \int_{{re}_{s_{2}}} K (X_{1}, X_{2}) re X_{1} re X_{2}

$K_F(s_1,s_2) = \int_{D_{s_1}}\int_{D_{s_2}} K(x_1,x_2)dx_1dx_2$ .

El teorema del representador para la media de un GP te dice entonces que $m_F(s) = \sum_k \alpha_k K_F(s_k,s)$ y puedes concluir comparando los coeficientes que

metro (s) = \sum_{k} α_{k} \int_{{re}_{k}} K (X, s) re X .

$m(s) = \sum_k \alpha_k \int_{D_k} K(x,s) dx.$

También puede derivar la distribución predictiva en un punto $s^*$ al notar que $f(s^*)$ y las observaciones de $F$ tener una distribución normal conjunta y puede condicionar las observaciones de $F$ . Sin embargo, las fórmulas se complican pero son sencillas (vea este documento Ecuaciones (8) y (9))

El problema con esto está en el lado práctico: necesita encontrar el núcleo $K$ de su elección de $K_F$ lo cual es probablemente difícil o comienzas con un $K$ tal que (i) pueda calcular $K_F$ Y (ii) $K_F$ funciona razonablemente bien para sus observaciones Y (iii) $K$ Tiene sentido como modelo para sus datos astronómicos.

gg
fuente

Gran discusión ¿Podemos imaginar en cambio un procedimiento como: 1) Expandir F sobre las funciones básicas elegidas, 2) Estimar el vector de parámetros y construir

\hat{F}

$\hat{F}$ , 3) Tome la derivada de

\hat{F}

$\hat{F}$ para recuperar

\hat{f}

$\hat{f}$ ?

dv_bn

Sí, pero el paso 3 solo funciona en una dimensión, no en dos, como es el caso aquí.

¿Incluso si tomas una derivada direccional?

dv_bn

Gracias por esta discusión extremadamente minuciosa. ¡Me ha dado mucho en qué pensar!

DathosPachy

Hay un tema en geoestadística llamado Reducción de escala exacta. El objetivo principal aquí es estimar una propiedad a una escala menor que las observaciones. Además, estas observaciones pueden superponerse o no (realmente no importa). Por favor, eche un vistazo a este documento: http://www.ccgalberta.com/ccgresources/report07/2005-101-exact_reproduction.pdf

En este documento, muestran un método para reducir las observaciones utilizando técnicas geoestadísticas. Muestran que al calcular correctamente las covarianzas cruzadas entre diferentes escalas de datos (punto frente a bloque), la estimación de kriging sigue siendo válida; tal que el promedio de los valores estimados a menor escala es igual a datos de entrada más grandes. Básicamente, para calcular los valores estimados en cualquier escala, solo necesita calcular la función de covarianza entre los datos de entrada, las escalas objetivo y las correlaciones cruzadas correctamente. En el Proceso Gaussiano, la suposición es que la estimación se realiza en la misma escala que las observaciones de entrada.

Entonces estos son los pasos: 1- Calcule el variograma experimental a partir de sus datos.

2- Ajuste el modelo de variograma a su variogama experiencial. Es posible que deba tener en cuenta la anisotropía direccional aquí. Esta es la función de covarianza que en GP se calcula mediante el método de máxima verosimilitud.

3- Calcular todas las covarianzas y covarianzas cruzadas entre los datos de entrada y la escala objetivo. Hay recibos numéricos para este paso. La idea es que al discretizar los bloques en puntos finitos, puede calcular la covarianza promedio. Los datos de superposición deben tenerse en cuenta aquí.

4- realiza Kriging y calcula los valores estimados.

GP es un tema muy relacionado con la geoestadística. Sin embargo, la geoestadística no se limita a los procesos gaussianos. Existen muchos otros métodos para estimar o simular un proceso aleatorio.

Behrang
fuente

Bienvenido al sitio. Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas de solo enlace, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información en el enlace, en caso de que falle?

gung - Restablece a Monica