¿Qué distribución sigue el CDF normal inverso de una variable aleatoria beta?

14

Supongamos que define:

XBeta(α,β)

YΦ1(X)

donde Φ1 es el inverso del CDF de la distribución normal estándar .

Mi pregunta es: ¿hay una distribución simple que siga Y , o que pueda aproximarse a Y ? Pregunto porque tengo una fuerte sospecha basada en los resultados de la simulación (que se muestra a continuación) de que Y converge a una distribución normal cuando α y β son altos, pero no sé por qué matemáticamente. (Por supuesto, cuando α=1;β=1 , X sería uniforme e Y sería la normal estándar, pero ¿por qué sería cierto para valores más altos?).

Si esto converge a una normal, ¿cuáles serían los parámetros de esa normal, en términos de α y β ? (Espero que la media sea Φ1(αα+β)ya que esa es la transformación del modo, pero no sé la desviación estándar).

(Dicho de otra manera, esto podría estar preguntando "¿ converge Φ(Norm(μ,σ)) a una distribución beta, para alguna dirección de μ y σ "? No estoy seguro de si eso es más fácil de responder).

Resultados de la simulación

Aquí muestro por qué tengo la sospecha de que el resultado es normal (ya que no puedo respaldarlo con las matemáticas). La simulación de Y se puede hacer en R con qnormy rnorm. Por ejemplo, eligiendo los parámetros altos α=3000 y β=7000 :

hist(qnorm(rbeta(5000, 3000, 7000)))

Esto parece normal, y qqnormla prueba de Shapiro-Wilk (en la que la normalidad es la hipótesis nula) también sugiere lo siguiente:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

Para explorar la normalidad un poco más profundo, realizo 2,000 simulaciones, simulando cada vez 5,000 valores de Y , luego realizo la prueba para compararla con la normal. (Elegí valores de 5K porque ese es el máximo que shapiro.testpuede manejar, y maximiza el poder para detectar desviaciones de la norma).

Si la distribución fuera realmente normal, esperaríamos que los valores p fueran uniformes (ya que el valor nulo es verdadero). De hecho, están cerca del uniforme, lo que sugiere que la distribución es muy cercana a la normal:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

Algunos experimentos demuestran que cuanto más altas son y β , más cercana es la distribución a la normalidad (por ejemplo, está bastante lejos de lo normal, pero intente y parece estar en algún punto intermedio).αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))

David Robinson
fuente
2
Nada interesante sucede aquí. A medida que y β crecen, supongamos que permanecen en la misma proporción, o al menos que α / ( α + β ) permanece alejado de 0 y 1 . Entonces la distribución Beta ( α , β ) se vuelve Normal y se concentra dentro de un rango arbitrariamente estrecho. Φ - 1 en sí mismo y no agrega información sobre las distribuciones Beta. αβα/(α+β)01(α,β)Φ1 , al ser diferenciable, se vuelve esencialmente lineal, por lo que simplemente observa una transformación lineal de una variable casi normal. Este resultado no tiene nada más que eso que ver con Φ1
whuber
1
@whuber Eso tiene sentido para grandes y β (tuve algunas simulaciones que me hicieron pensar que esto estaba más cerca de lo normal que el equivalente normal aproximadamente a beta, pero al volver a ejecutar creo que tuve un error en ese momento). Cualquier pensamiento sobre α = 2 ; β = 2 ? Dist está muy lejos de lo normal, pero qnorm está bastante cerca. αβα=2β=2
David Robinson el
1
@whuber Por ejemplo hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)), inténtalo hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value)). En otras palabras, cuando es normal porque la beta es uniforme, cuando α y β son altos, es porque la beta es más o menos normal, pero ¿por qué funciona cuando son iguales y en el medio, donde no es ni normal ni uniforme? α=β=1αβ
David Robinson el
55
¡Eso definitivamente es más interesante! Tiene razón en que Beta no está muy cerca de Normal pero que la transformación es aproximadamente Normal, incluso para pequeños parámetros de Beta. Las desviaciones de la normalidad se hacen evidentes en las colas, alrededor de o más, pero son notablemente pequeñas en todo el cuerpo de la distribución. En última instancia, esto se puede rastrear hasta el comportamiento de la ley de poder de las colas Beta. Z=±3
whuber

Respuestas:

7

Sinopsis

Ha redescubierto parte de la construcción descrita en el Teorema del límite central para medianas de muestra , que ilustra un análisis de la mediana de una muestra. (El análisis obviamente se aplica, mutatis mutandis , a cualquier cuantil, no solo a la mediana). Por lo tanto, no es sorprendente que para grandes parámetros Beta (correspondientes a muestras grandes) surja una distribución Normal bajo la transformación descrita en la pregunta. Lo que es interesante es qué tan cerca de Normal es la distribución, incluso para pequeños parámetros Beta. Eso merece una explicación.

Dibujaré un análisis a continuación. Para mantener esta publicación a una longitud razonable, implica una gran cantidad de sugerentes movimientos de mano: solo pretendo señalar las ideas clave. Permítanme resumir los resultados aquí:

  1. Cuando está cerca deα , todo es simétrico. Esto hace que la distribución transformada ya parezca Normal.β

  2. Las funciones de la forma parecen bastante normales en primer lugar, incluso para valores pequeños de α y β (siempre que ambos excedan 1 y su relación no sea demasiado cerca de 0 o 1Φα1(x)(1Φ(x))β1αβ101 ).

  3. La aparente normalidad de la distribución transformada se debe al hecho de que su densidad consiste en una densidad normal multiplicada por una función en (2).

  4. A medida que aumentan y β , la desviación de la Normalidad se puede medir en los términos restantes en una serie de Taylor para la densidad logarítmica. El término de orden n disminuye en proporción a las potencias ( n - 2 ) / 2 de α y β . Esto implica que eventualmente, para α y β suficientemente grandes , todos los términos de potencia n = 3αβn(n2)/2αβαβn=3 o mayores se han vuelto relativamente pequeños, dejando solo una cuadrática: que es precisamente la densidad logarítmica de una distribución Normal.

Colectivamente, estos comportamientos explican muy bien por qué incluso para y β pequeñosαβ los cuantiles no extremos de una muestra iid Normal se ven aproximadamente normales.


Análisis

Debido a que puede ser útil generalizar, dejemos que sea cualquier función de distribución, aunque tenemos en mente F = ΦFF=Φ .

La función de densidad de una variable Beta ( α , β ) es, por definición, proporcional ag(y)(α,β)

yα1(1y)β1dy.

Si es la transformación integral de probabilidad de x y se escribe f para la derivada de F , es inmediato que x tiene una densidad proporcional ay=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

Debido a que esta es una transformación monotónica de una distribución fuertemente unimodal (una Beta), a menos que sea ​​bastante extraña, la distribución transformada también será unimodal. Para estudiar qué tan cerca de lo normal podría ser, examinemos el logaritmo de su densidad,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

donde es una constante irrelevante de normalización.C

Expanda los componentes de en la serie Taylor para ordenar tres alrededor de un valor x 0 (que estará cerca de un modo). Por ejemplo, podemos escribir la expansión de log F comologG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

por alguna con | h | | x - x 0 | . Use una notación similar para log ( 1 - F ) y log f . h|h||xx0|log(1F)logf

Términos lineales

El término lineal en se convierte así(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

Cuando es un modo de G (x0 , esta expresión es cero. Tenga en cuenta que debido a que los coeficientes son funciones continuas de x 0 , ya que α y β varían, el modo x 0 también variará continuamente. Además, una vez que α y β son suficientemente grandes, eltérmino c f 1 se vuelve relativamente intrascendente. Si nuestro objetivo es estudiar el límite como α y β para el cual α : β permanece en proporción constante γG(;α,β)x0αβx0αβc1fαβ α:βγ, por lo tanto, podemos elegir de una vez por todas un punto base para el cualx0

γc1F+c11F=0.

Un buen caso es donde , donde α = β en todo momento, y F es simétrica alrededor de 0 . En ese caso, es obvio x 0 = F ( 0 ) = 1 / 2γ=1α=βF0x0=F(0)=1/2 .

Hemos logrado un método por el cual (a) en el límite, el término de primer orden en la serie de Taylor desaparece y (b) en el caso especial que se acaba de describir, el término de primer orden siempre es cero.

Términos cuadráticos

Estas son la suma

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

En comparación con una distribución normal, cuyo término cuadrático es , podemos estimar que - 1 / ( 2 g 2 ( α , β ) ) es aproximadamente la varianza de G . Vamos a estandarizar G ajustando la base de x por su raíz cuadrada. Realmente no necesitamos los detalles; es suficiente entender que este cambio de escala va a multiplicar el coeficiente de ( x(1/2)(xx0)2/σ21/(2g2(α,β))GGx en la expansión de Taylor por ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(xx0)n(1/(2g2(α,β)))n/2.

Término restante

Aquí está el punto clave: el término de orden en la expansión de Taylor es, según nuestra notación,n

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

Después de la estandarización, se convierte

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

Both of the gi are affine combination of α and β. By raising the denominator to the n/2 power, the net behavior is of order (n2)/2 in each of α and β. As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.

The case when F is normal

The vanishing of the remainder term is particularly fast when F is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα1(1F)β1 and normality.

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.

whuber
fuente
2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).
Jan Kislinger
fuente
1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

air
fuente