Distribución de muestreo del radio de distribución normal 2D

11

La distribución normal bivariada con media y matriz de covarianza puede reescribirse en coordenadas polares con radio y ángulo . Mi pregunta es: ¿Cuál es la distribución de muestreo de , es decir, de la distancia desde un punto al centro estimado dada la matriz de covarianza de muestra ?μr θ r x ˉ x SΣrθr^xx¯S

Antecedentes: la verdadera distancia desde un punto hasta la media sigue una distribución de Hoyt . Con valores propios de y , su parámetro de forma es , y su parámetro de escala es . Se sabe que la función de distribución acumulativa es la diferencia simétrica entre dos funciones Q de Marcum.rxλ 1 , λ 2 Σ λ 1 > λ 2 q = 1μλ1,λ2Σλ1>λ2q=1(λ1+λ2)/λ2)1ω=λ1+λ2

La simulación sugiere que conectar las estimaciones y para y en el verdadero cdf funciona para muestras grandes, pero no para muestras pequeñas. El siguiente diagrama muestra los resultados de 200 vecesx¯SμΣ

  • simulando 20 vectores normales 2D para cada combinación de ( eje ), (filas) y cuantil (columnas) dadosqxω
  • para cada muestra, calculando el cuantil dado del radio observado a r^x¯
  • para cada muestra, calcular el cuantil de la Hoyt teórico (normal 2D) cdf, y de la cdf teórico Rayleigh después de conectar las estimaciones de la muestra y .x¯S

ingrese la descripción de la imagen aquí

A medida que acerca a 1 (la distribución se vuelve circular), los cuantiles Hoyt estimados se aproximan a los cuantiles Rayleigh estimados que no se ven afectados por . A medida que crece, la diferencia entre los cuantiles empíricos y los estimados aumenta, especialmente en la cola de la distribución.q ωqqω

lince
fuente
1
¿Cuál es la pregunta?
John
@John destaqué la pregunta: "¿Cuál es la distribución de muestreo de [radio] , es decir, de la distancia desde un punto al centro estimado dada la matriz de convarianza de muestra ?" x ˉ x Srxx¯S
caracal
¿Por qué en lugar de ? ^ r 2r^r2^
SomeEE
@MathEE simplemente porque la literatura que conozco se refiere a la distribución de (verdadero) , no (verdadero) . Tenga en cuenta que esto es diferente a la situación con la distancia de Mahalanobis discutida en esta pregunta . Por supuesto, los resultados para la distribución de serían muy bienvenidos. rr2 r 2r^rr2r^2
caracal

Respuestas:

7

Como mencionó en su publicación, conocemos la distribución de la estimación de si se nos da por lo que sabemos la distribución de la estimación de la verdadera . μ ^ r 2 t r u e r2rtrue^μrtrue2^r2

Queremos encontrar la distribución de donde se expresan como vectores de columna.xi

r2^=1Ni=1N(xix¯)T(xix¯)
xi

Ahora hacemos el truco estándar

rtrue2^=1Ni=1N(xiμ)T(xiμ)=1Ni=1N(xix¯+x¯μ)T(xix¯+x¯μ)=[1Ni=1N(xix¯)T(xix¯)]+(x¯μ)T(x¯μ)(1)=r2^+(x¯μ)T(x¯μ)
donde surge de la ecuación y su transposición.(1)
1Ni=1N(xix¯)T(x¯μ)=(x¯x¯)T(x¯μ)=0

Observe que es el rastro de la matriz de covarianza de muestra y solo depende de la media la muestra . Por lo tanto, hemos escrito como la suma de dos Variables aleatorias independientes. Conocemos las distribuciones de y y así hemos terminado a través del truco estándar usando ese Las funciones características son multiplicativas. S( ¯ x -μ)T( ¯ x -μ) ¯ xr2^S(x¯μ)T(x¯μ)x¯

rtrue2^=r2^+(x¯μ)T(x¯μ)
rtrue2^(x¯μ)T(x¯μ)

Editado para agregar:

||xiμ||es Hoyt, entonces tiene pdf donde es la función Bessel modificada del primer tipo .

f(ρ)=1+q2qωρe(1+q2)24q2ωρ2IO(1q44q2ωρ2)
I00th

Esto significa que el pdf de es ||xiμ||2

f(ρ)=121+q2qωe(1+q2)24q2ωρI0(1q44q2ωρ).

Para facilitar la notación, configure , y .a=1q44q2ωb=(1+q2)24q2ωc=121+q2qω

La función generadora de momento de es ||xiμ||2

{c(sb)2a2(sb)>a0 else

Por lo tanto, la función generadora de momento de es y la función generadora de momento de es rtrue2^

{cN((s/Nb)2a2)N/2(s/Nb)>a0else
||x¯μ||2
{Nc(sNb)2(Na)2=c(s/Nb)2a2(s/Nb)>a0 else

Esto implica que la función generadora de momento de es r2^

{cN1((s/Nb)2a2)(N1)/2(s/Nb)>a0 else.

La aplicación de la transformación inversa de Laplace da que tiene pdf r2^

g(ρ)=πNcN1Γ(N12)(2iaNρ)(2N)/2ebNρJN/21(iaNρ).
SomeEE
fuente
¡Gracias! Tendré que resolver los detalles antes de aceptar.
caracal
rtrue2^Hoyt , y ? Entonces la función característica de es el producto de las dos funciones características como se explica aquí . Eso efectivamente responde a mi pregunta. ¿Sabe cómo podríamos transformar adecuadamente modo que su distribución sea conocida sin acceso a ? ¿Como la distancia de Mahalanobis o la estadística univariada ? ||x¯μ||2N(0,1NΣ)r2^r2^Σt
caracal
He editado mi respuesta a una respuesta completa. Avísame si estás de acuerdo.
SomeEE
No estoy seguro acerca de desconocido . Lo obvio sería tratar de "dividir" por la covarianza de muestra que se vería como una suma de distancias de Mahalanobis, es decir, considere . Lamentablemente, esta suma es siempre . Σr2^S1Ni=1N(xix¯)TS1(xix¯)1
SomeEE
¡Gracias por seguir trabajando en la respuesta! No estoy seguro acerca de la distribución de . No soy capaz de hacer frente a esta forma analítica, sino una simulación rápida de da una distribución diferente de : código de simulación R . Aunque bien podría ser que no entiendo correctamente la parametrización . r 2 Γ ( q , ω||xiμ||2r2ΓΓ(q,ωq)Γ
caracal