¿Cuál es la distribución de la distancia euclidiana entre dos variables aleatorias normalmente distribuidas?

Suponga que se le dan dos objetos cuyas ubicaciones exactas se desconocen, pero se distribuyen de acuerdo con distribuciones normales con parámetros conocidos (por ejemplo, y . Podemos suponer estos son ambos normales bivariantes, de manera que las posiciones se describen mediante una distribución de más de de coordenadas (es decir, y son vectores que contienen las esperadas coordenadas para $a \sim N(m, s)$ $b \sim N(v, t))$ $(x,y)$ $m$ $v$ $(x,y)$ $a$ y $b$ respectivamente). También asumiremos que los objetos son independientes.

¿Alguien sabe si la distribución de la distancia euclidiana al cuadrado entre estos dos objetos es una distribución paramétrica conocida? ¿O cómo derivar el PDF / CDF para esta función analíticamente?

normal-distribution distance-functions Mella
fuente

Debe obtener un múltiplo de una distribución de chi-cuadrado no central siempre que las cuatro coordenadas no estén correlacionadas. De lo contrario, el resultado parece mucho más complicado.

whuber

@whuber cualquier detalle / puntero que pueda proporcionar sobre cómo los parámetros de la distribución de chi-cuadrado no central resultante se relacionan con los de los objetos a, b sería fantástico

Nick

@Nick los primeros párrafos del artículo de Wikipedia proporcionan los detalles. Al observar las funciones características, puede establecer que un resultado similar no está disponible cuando no todas las variaciones son iguales o hay algunas correlaciones.

whuber

@ Nick, solo para aclarar, ¿tanto

a

$a$ como

b

$b$ son vectores aleatorios con valores en

R^{2}

$\mathbb{R}^2$ ?

mpiktas

@Nick, si

son conjuntamente normales, entonces la diferencia es

es normal. Entonces su problema es encontrar la distribución del vector normal aleatorio. Googleé encontré este enlace . El documento describe un problema mucho más complejo que, en un caso muy particular, coincide con el suyo. Esto da cierta esperanza de que haya una respuesta definitiva a su pregunta. Las referencias pueden darle más ideas sobre dónde buscar.

a

$a$

b

$b$

a - b

$a-b$

mpiktas

Respuestas:

La respuesta a esta pregunta se puede encontrar en el libro Formas cuadráticas en variables aleatorias de Mathai y Provost (1992, Marcel Dekker, Inc.).

Como aclaran los comentarios, necesita encontrar la distribución de donde sigue una distribución normal bivariada con media y matriz de covarianza . Esta es una forma cuadrática en la variable aleatoria bivariada . $Q = z_1^2 + z_2^2$ $z = a - b$ $\mu$ $\Sigma$ $z$

Brevemente, un buen resultado general para el caso -dimensional donde y es que la función generadora de momento es $p$ $z \sim N_p(\mu, \Sigma)$

Q = \sum_{j = 1}^{pags} z_{j}^{2}

$Q = \sum_{j=1}^p z_j^2$

, donde

son los valores propios de

es una función lineal de

. Consulte el Teorema 3.2a.2 (página 42) en el libro citado anteriormente (asumimos aquí que

no es singular). Otra representación útil es 3.1a.1 (página 29)

mi ({mi}^{t Q}) = {mi}^{t \sum_{j = 1}^{pags} \frac{{si}_{j}^{2} λ_{j}}{1 - 2 t λ_{j}}} \prod_{j = 1}^{pags} (1 - 2 t λ_{j})^{- 1 / / 2}

$E(e^{tQ}) = e^{t \sum_{j=1}^p \frac{b_j^2 \lambda_j}{1-2t\lambda_j}}\prod_{j=1}^p (1-2t\lambda_j)^{-1/2}$

λ_{1}, \dots, λ_{p}

$\lambda_1, \ldots, \lambda_p$

Σ

$\Sigma$

b

$b$

μ

$\mu$

Σ

$\Sigma$

donde

son iid

Q = \sum_{j = 1}^{pags} λ_{j} ({tu}_{j} + {si}_{j})^{2}

$Q = \sum_{j=1}^p \lambda_j(u_j + b_j)^2$

u_{1}, \dots, u_{p}

$u_1, \ldots, u_p$

N (0, 1)

$N(0, 1)$

Todo el Capítulo 4 del libro está dedicado a la representación y el cálculo de las densidades y las funciones de distribución, lo cual no es para nada trivial. Solo estoy familiarizado superficialmente con el libro, pero mi impresión es que todas las representaciones generales están en términos de expansiones de series infinitas.

$\lambda_1, \lambda_2 > 0$ $b_1, b_2 \in \mathbb{R}$

$a$ $b$ $a-b$

NRH
fuente

Gracias por la referencia, encontré el libro y lentamente estoy tratando de abrirme paso

Nick

λ_{j} = σ^{2}

$\lambda_j = \sigma^2$

p = 2

$p=2$

b_{j}^{2} λ_{j}

$b_j^2 \lambda_j$

μ_{j}^{2}

$\mu_j^2$

b_{j}

$b_j$

μ_{j}^{2}

$\mu_j^2$

$\mu_d = \mu_1 - \mu_2$ $\Sigma_d = \Sigma_1 + \Sigma_2$ $\Sigma_d = \mathrm{J} \Sigma_{12} \mathrm{J}^T$ $\Sigma_{12} = \begin{bmatrix} \Sigma_1 & \\ & \Sigma_2 \end{bmatrix}$ $\mathrm{J} = \begin{bmatrix} +\mathrm{I}, & -\mathrm{I} \end{bmatrix}$

En segundo lugar, busque la distribución de la longitud del vector de diferencia, o la distancia radial desde el origen, que se distribuye Hoyt :

El radio alrededor de la media verdadera en una variable aleatoria normal correlacionada bivariada con variaciones desiguales, reescrita en coordenadas polares (radio y ángulo), sigue una distribución de Hoyt. El pdf y el cdf se definen en forma cerrada, la búsqueda de raíz numérica se usa para encontrar cdf ^ −1. Se reduce a la distribución de Rayleigh si la correlación es 0 y las varianzas son iguales.

Una distribución más general surge si permite una diferencia sesgada (origen desplazado), de Ballistipedia :

Felipe G. Nievinski
fuente

+1, pero creo que vale la pena señalar que la pregunta trata de lo que su figura llama el "Caso general".

ameba dice Reinstate Monica

¿Por qué no probarlo?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Parcela 1 Parcela 2 Parcela 3 Parcela 4

Brandon Bertelsen
fuente

Los comentarios de Whubers a la pregunta original ya indicaron cómo se vería si las variaciones fueran las mismas y las variables no estuvieran correlacionadas. Quizás dar un ejemplo de dónde este no es el caso sería más esclarecedor.

Andy W

¿Puedes dar ese ejemplo?

Brandon Bertelsen el

todo lo que necesita hacer es generar los valores xey que están correlacionados o tienen diferentes variaciones. Las diferentes variaciones se pueden hacer directamente en el código tal como está. Puede generar valores a partir de una matriz de covarianza especificada utilizando mvrnorm del paquete MASS. Además, no estoy seguro de cuál es la función "dentista" en el código anterior, en caso de que sea "densidad".

Andy W

Dicho esto, probablemente sea igual de esclarecedor trabajar con las matemáticas para ver por qué este es el caso (y cómo la manipulación de la varianza / covarianzas cambiará la distribución). No está del todo claro para mí por qué este es el caso simplemente mirando la función característica mencionada por whuber. Parece que una simple comprensión de las reglas para sumar, restar y multiplicar variables aleatorias lo ayudará a comprender por qué.

Andy W