Supongamos que define:
donde es el inverso del CDF de la distribución normal estándar .
Mi pregunta es: ¿hay una distribución simple que siga , o que pueda aproximarse a ? Pregunto porque tengo una fuerte sospecha basada en los resultados de la simulación (que se muestra a continuación) de que converge a una distribución normal cuando y son altos, pero no sé por qué matemáticamente. (Por supuesto, cuando , sería uniforme e sería la normal estándar, pero ¿por qué sería cierto para valores más altos?).
Si esto converge a una normal, ¿cuáles serían los parámetros de esa normal, en términos de y ? (Espero que la media sea ya que esa es la transformación del modo, pero no sé la desviación estándar).
(Dicho de otra manera, esto podría estar preguntando "¿ converge a una distribución beta, para alguna dirección de y "? No estoy seguro de si eso es más fácil de responder).
Resultados de la simulación
Aquí muestro por qué tengo la sospecha de que el resultado es normal (ya que no puedo respaldarlo con las matemáticas). La simulación de se puede hacer en R con qnorm
y rnorm
. Por ejemplo, eligiendo los parámetros altos y :
hist(qnorm(rbeta(5000, 3000, 7000)))
Esto parece normal, y qqnorm
la prueba de Shapiro-Wilk (en la que la normalidad es la hipótesis nula) también sugiere lo siguiente:
qqnorm(qnorm(rbeta(5000, 3000, 7000)))
shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#>
#> Shapiro-Wilk normality test
#>
#> data: qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838
Para explorar la normalidad un poco más profundo, realizo 2,000 simulaciones, simulando cada vez 5,000 valores de , luego realizo la prueba para compararla con la normal. (Elegí valores de 5K porque ese es el máximo que shapiro.test
puede manejar, y maximiza el poder para detectar desviaciones de la norma).
Si la distribución fuera realmente normal, esperaríamos que los valores p fueran uniformes (ya que el valor nulo es verdadero). De hecho, están cerca del uniforme, lo que sugiere que la distribución es muy cercana a la normal:
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))
Algunos experimentos demuestran que cuanto más altas son y β , más cercana es la distribución a la normalidad (por ejemplo, está bastante lejos de lo normal, pero intente y parece estar en algún punto intermedio).rbeta(5000, 3, 7)
hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))
fuente
hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value))
, inténtalohist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))
. En otras palabras, cuando es normal porque la beta es uniforme, cuando α y β son altos, es porque la beta es más o menos normal, pero ¿por qué funciona cuando son iguales y en el medio, donde no es ni normal ni uniforme?Respuestas:
Sinopsis
Ha redescubierto parte de la construcción descrita en el Teorema del límite central para medianas de muestra , que ilustra un análisis de la mediana de una muestra. (El análisis obviamente se aplica, mutatis mutandis , a cualquier cuantil, no solo a la mediana). Por lo tanto, no es sorprendente que para grandes parámetros Beta (correspondientes a muestras grandes) surja una distribución Normal bajo la transformación descrita en la pregunta. Lo que es interesante es qué tan cerca de Normal es la distribución, incluso para pequeños parámetros Beta. Eso merece una explicación.
Dibujaré un análisis a continuación. Para mantener esta publicación a una longitud razonable, implica una gran cantidad de sugerentes movimientos de mano: solo pretendo señalar las ideas clave. Permítanme resumir los resultados aquí:
Cuando está cerca deα , todo es simétrico. Esto hace que la distribución transformada ya parezca Normal.β
Las funciones de la forma parecen bastante normales en primer lugar, incluso para valores pequeños de α y β (siempre que ambos excedan 1 y su relación no sea demasiado cerca de 0 o 1Φα−1(x)(1−Φ(x))β−1 α β 1 0 1 ).
La aparente normalidad de la distribución transformada se debe al hecho de que su densidad consiste en una densidad normal multiplicada por una función en (2).
A medida que aumentan y β , la desviación de la Normalidad se puede medir en los términos restantes en una serie de Taylor para la densidad logarítmica. El término de orden n disminuye en proporción a las potencias ( n - 2 ) / 2 de α y β . Esto implica que eventualmente, para α y β suficientemente grandes , todos los términos de potencia n = 3α β n (n−2)/2 α β α β n=3 o mayores se han vuelto relativamente pequeños, dejando solo una cuadrática: que es precisamente la densidad logarítmica de una distribución Normal.
Colectivamente, estos comportamientos explican muy bien por qué incluso para y β pequeñosα β los cuantiles no extremos de una muestra iid Normal se ven aproximadamente normales.
Análisis
Debido a que puede ser útil generalizar, dejemos que sea cualquier función de distribución, aunque tenemos en mente F = ΦF F=Φ .
La función de densidad de una variable Beta ( α , β ) es, por definición, proporcional ag(y) (α,β)
Si es la transformación integral de probabilidad de x y se escribe f para la derivada de F , es inmediato que x tiene una densidad proporcional ay=F(x) x f F x
Debido a que esta es una transformación monotónica de una distribución fuertemente unimodal (una Beta), a menos que sea bastante extraña, la distribución transformada también será unimodal. Para estudiar qué tan cerca de lo normal podría ser, examinemos el logaritmo de su densidad,F
donde es una constante irrelevante de normalización.C
Expanda los componentes de en la serie Taylor para ordenar tres alrededor de un valor x 0 (que estará cerca de un modo). Por ejemplo, podemos escribir la expansión de log F comologG(x;α,β) x0 logF
por alguna con | h | ≤ | x - x 0 | . Use una notación similar para log ( 1 - F ) y log f .h |h|≤|x−x0| log(1−F) logf
Términos lineales
El término lineal en se convierte así(1)
Cuando es un modo de G (x0 , esta expresión es cero. Tenga en cuenta que debido a que los coeficientes son funciones continuas de x 0 , ya que α y β varían, el modo x 0 también variará continuamente. Además, una vez que α y β son suficientemente grandes, eltérmino c f 1 se vuelve relativamente intrascendente. Si nuestro objetivo es estudiar el límite como α → ∞ y β → ∞ para el cual α : β permanece en proporción constante γG(;α,β) x0 α β x0 α β cf1 α→∞ β→∞ α:β γ , por lo tanto, podemos elegir de una vez por todas un punto base para el cualx0
Un buen caso es donde , donde α = β en todo momento, y F es simétrica alrededor de 0 . En ese caso, es obvio x 0 = F ( 0 ) = 1 / 2γ=1 α=β F 0 x0=F(0)=1/2 .
Hemos logrado un método por el cual (a) en el límite, el término de primer orden en la serie de Taylor desaparece y (b) en el caso especial que se acaba de describir, el término de primer orden siempre es cero.
Términos cuadráticos
Estas son la suma
En comparación con una distribución normal, cuyo término cuadrático es , podemos estimar que - 1 / ( 2 g 2 ( α , β ) ) es aproximadamente la varianza de G . Vamos a estandarizar G ajustando la base de x por su raíz cuadrada. Realmente no necesitamos los detalles; es suficiente entender que este cambio de escala va a multiplicar el coeficiente de ( x−(1/2)(x−x0)2/σ2 −1/(2g2(α,β)) G G x en la expansión de Taylor por ( - 1 / ( 2 g 2 ( α , β ) ) ) n / 2 .(x−x0)n (−1/(2g2(α,β)))n/2.
Término restante
Aquí está el punto clave: el término de orden en la expansión de Taylor es, según nuestra notación,n
Después de la estandarización, se convierte
Both of thegi are affine combination of α and β . By raising the denominator to the n/2 power, the net behavior is of order −(n−2)/2 in each of α and β . As these parameters grow large, then, each term in the Taylor expansion after the second decreases to zero asymptotically. In particular, the third-order remainder term becomes arbitrarily small.
The case whenF is normal
The vanishing of the remainder term is particularly fast whenF is standard Normal, because in this case f(x) is purely quadratic: it contributes nothing to the remainder terms. Consequently, the deviation of G from normality depends solely on the deviation between Fα−1(1−F)β−1 and normality.
This deviation is fairly small even for smallα and β . To illustrate, consider the case α=β . G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in x−x0=x .
Here is a plot showing how the standardized fourth order term changes with small values ofα>1 :
The value starts out at0 for α=β=1 , because then the distribution obviously is Normal (Φ−1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008 --which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2 .
fuente
Convergence
Suppose thatα=β and let α→∞ and take any small ε>0 . Then var(X)→0 . By Chebyshev's inequality we have P[|X−0.5|>ε]→0 and P[|Y|>ε]→0 . This means that Y converges in probability (
not in distributionactually it converges in distribution - to singleton).Exact distribution
Denote byfX the density of beta distribution. Then your variable Y has density
FullSimplify
function in Wolfram Mathematica to see if it finds some better form.Here is the density in R so you can plot it instead of histogram.
Modification
However, you are maybe interested in distribution of
fuente
Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, takek∈N , k≥2 . Let X∼Beta(k,k) . I want to argue that Y=Φ−1(X) is approximately normal.
Now letn=2k−1 . We start by drawing n i.i.d. uniformly distributed random variables U1,…,Un . Next, form the order statistics U(1)≤…≤U(n) .
It is well known thatU(k)∼Beta(k,n+1−k) , thus:
In other words: The sample median ofn i.i.d. uniformly distributed random variables is Beta(k,k) distributed.
Now let's transform byZi=Φ−1(Ui) . Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)≤…≤Z(n) ). Since Φ−1 is strictly increasing, it follows that:
Therefore, to show thatY is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.
Fork large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2 , I will let everyone's gut feeling do the speaking.
Fora≠b (but not too different) one can argue similarly by using corresponding quantiles.
fuente