Estadísticas de orden aproximadas para variables aleatorias normales

38

¿Existen fórmulas bien conocidas para las estadísticas de orden de ciertas distribuciones aleatorias? Particularmente las estadísticas de primer y último orden de una variable aleatoria normal, pero también se agradecería una respuesta más general.

Editar: para aclarar, estoy buscando fórmulas aproximadas que puedan evaluarse más o menos explícitamente, no la expresión integral exacta.

Por ejemplo, he visto las siguientes dos aproximaciones para la estadística de primer orden (es decir, el mínimo) de un rv normal:

$e_{1:n} \geq \mu - \frac{n-1}{\sqrt{2n-1}}\sigma$

y

$e_{1:n} \approx \mu + \Phi^{-1} \left( \frac{1}{n+1} \right)\sigma$

El primero de ellos, para , da aproximadamente que parece un límite suelto. $n=200$ $e_{1:200} \geq \mu - 10\sigma$

El segundo da mientras que un Monte Carlo rápido da , por lo que no es una mala aproximación pero tampoco es excelente, y Más importante aún, no tengo ninguna intuición sobre de dónde viene. $e_{1:200} \approx \mu - 2.58\sigma$ $e_{1:200} \approx \mu - 2.75\sigma$

¿Alguna ayuda?

distributions normal-distribution approximation order-statistics Chris Taylor
fuente

44

Si usa R, vea la función ppoints .

cardenal

1

@probabilityislogic ha dado una buena intuición para las aproximaciones que enumera. ¿Sería útil si di algo más desde un punto de vista alternativo, o si ha satisfecho su curiosidad sobre este asunto?

cardenal

31

La referencia clásica es Royston (1982) [1] que tiene algoritmos que van más allá de las fórmulas explícitas. También cita una fórmula bien conocida de Blom (1958): con . Esta fórmula da un multiplicador de -2.73 para . $E(r:n) \approx \mu + \Phi^{-1}(\frac{r-\alpha}{n-2\alpha+1})\sigma$ $\alpha=0.375$ $n=200, r=1$

[1]: Algoritmo AS 177: Estadísticas de orden normal esperadas (exactas y aproximadas) JP Royston. Revista de la Real Sociedad Estadística. Serie C (Estadística Aplicada) Vol. 31, núm. 2 (1982), págs. 161-165

Aniko
fuente

21

$\newcommand{\Pr}{\mathrm{Pr}}\newcommand{\Beta}{\mathrm{Beta}}\newcommand{\Var}{\mathrm{Var}}$ La distribución de la estadística de orden i de cualquier aleatorio continuo La variable con un PDF viene dada por la distribución compuesta "beta-F". La forma más intuitiva para pensar en esta distribución, es considerar la estadística de orden i en una muestra de . Ahora, para que el valor de la estadística de orden i de una variable aleatoria sea igual a , necesitamos 3 condiciones:

N

$N$

X

$X$

x

$x$

$i-1$ valores por debajo de , esto tiene probabilidad para cada observación, donde es el CDF de la variable aleatoria X. $x$ $F_{X}(x)$ $F_X(x)=\Pr(X<x)$
$N-i$ Valores de superiores a , esto tiene probabilidad $x$ $1-F_{X}(x)$
1 valor dentro de un intervalo infinitesimal que contiene , esto tiene probabilidad donde es el PDF de la variable aleatoria $x$ $f_{X}(x)dx$ $f_{X}(x)dx=dF_{X}(x)=\Pr(x<X<x+dx)$ $X$

Hay formas de hacer esta elección, por lo que tenemos: ${N \choose 1}{N-1 \choose i-1}$

f_{i} (x_{i}) = \frac{N!}{(i - 1)! (N - i)!} f_{X} (x_{i}) {[1 - F_{X} (x_{i})]}^{N - i} {[F_{X} (x_{i})]}^{i - 1} d x

$f_{i}(x_{i})=\frac{N!}{(i-1)!(N-i)!}f_{X}(x_{i})\left[1-F_{X}(x_{i})\right]^{N-i}\left[F_{X}(x_{i})\right]^{i-1}dx$

EDITAR en mi publicación original, hice un intento muy pobre de ir más allá de este punto, y los comentarios a continuación reflejan esto. He tratado de rectificar esto a continuación

Si tomamos el valor medio de este pdf obtenemos:

E (X_{i}) = \int_{- \infty}^{\infty} x_{i} f_{i} (x_{i}) d x_{i}

$E(X_{i})=\int_{-\infty}^{\infty} x_{i}f_{i}(x_{i})dx_{i}$

Y en esta integral, hacemos el siguiente cambio de la variable (tomando la pista de @ henry), y la integral se convierte en: $p_{i}=F_{X}(x_{i})$

E (X_{i}) = \int_{0}^{1} F_{X}^{- 1} (p_{i}) B e t a (p_{i} | i, N - i + 1) d p_{i} = E_{B e t a (p_{i} | i, N - i + 1)} [F_{X}^{- 1} (p_{i})]

$E(X_{i})=\int_{0}^{1} F_{X}^{-1}(p_{i})\Beta(p_{i}|i,N-i+1)dp_{i}=E_{\Beta(p_{i}|i,N-i+1)}\left[F_{X}^{-1}(p_{i})\right]$

Entonces, este es el valor esperado del CDF inverso, que puede aproximarse bien utilizando el método delta para dar:

E_{B e t a (p_{i} | i, N - i + 1)} [F_{X}^{- 1} (p_{i})] \approx F_{X}^{- 1} [E_{B e t a (p_{i} | i, N - i + 1)}] = F_{X}^{- 1} [\frac{i}{N + 1}]

$E_{\Beta(p_{i}|i,N-i+1)}\left[F_{X}^{-1}(p_{i})\right]\approx F_{X}^{-1}\left[E_{\Beta(p_{i}|i,N-i+1)}\right]=F_{X}^{-1}\left[\frac{i}{N+1}\right]$

Para hacer una mejor aproximación, podemos expandirnos al segundo orden (primo que denota la diferenciación), y observando que la segunda derivada de un inverso es:

\frac{\partial^{2}}{\partial a^{2}} F_{X}^{- 1} (a) = - \frac{F_{X}^{^{″}} (F_{X}^{- 1} (a))}{{[F_{X}^{^{'}} (F_{X}^{- 1} (a))]}^{3}} = - \frac{f_{X}^{^{'}} (F_{X}^{- 1} (a))}{{[f_{X} (F_{X}^{- 1} (a))]}^{3}}

$\frac{\partial^{2}}{\partial a^{2}}F_{X}^{-1}(a)=-\frac{F_{X}^{''}(F_{X}^{-1}(a))}{\left[F_{X}^{'}(F_{X}^{-1}(a))\right]^{3}}=-\frac{f_{X}^{'}(F_{X}^{-1}(a))}{\left[f_{X}(F_{X}^{-1}(a))\right]^{3}}$

Deje que . Entonces tenemos: $\nu_{i}=F_{X}^{-1}\left[\frac{i}{N+1}\right]$

E_{B e t a (p_{i} | i, N - i + 1)} [F_{X}^{- 1} (p_{i})] \approx F_{X}^{- 1} [ν_{i}] - \frac{{V a r}_{B e t a (p_{i} | i, N - i + 1)} [p_{i}]}{2} \frac{f_{X}^{^{'}} (ν_{i})}{{[f_{X} (ν_{i})]}^{3}}

$E_{\Beta(p_{i}|i,N-i+1)}\left[F_{X}^{-1}(p_{i})\right]\approx F_{X}^{-1}\left[\nu_{i}\right]-\frac{\Var_{\Beta(p_{i}|i,N-i+1)}\left[p_{i}\right]}{2}\frac{f_{X}^{'}(\nu_{i})}{\left[f_{X}(\nu_{i})\right]^{3}}$

= ν_{i} - \frac{(\frac{i}{N + 1}) (1 - \frac{i}{N + 1})}{2 (N + 2)} \frac{f_{X}^{^{'}} (ν_{i})}{{[f_{X} (ν_{i})]}^{3}}

$=\nu_{i}-\frac{\left(\frac{i}{N+1}\right)\left(1-\frac{i}{N+1}\right)}{2(N+2)}\frac{f_{X}^{'}(\nu_{i})}{\left[f_{X}(\nu_{i})\right]^{3}}$

Ahora, especializándonos en el caso normal, tenemos

f_{X} (x) = \frac{1}{σ} ϕ (\frac{x - μ}{σ}) \to f_{X}^{^{'}} (x) = - \frac{x - μ}{σ^{3}} ϕ (\frac{x - μ}{σ}) = - \frac{x - μ}{σ^{2}} f_{X} (x)

$f_{X}(x)=\frac{1}{\sigma}\phi(\frac{x-\mu}{\sigma})\rightarrow f_{X}^{'}(x)=-\frac{x-\mu}{\sigma^{3}}\phi(\frac{x-\mu}{\sigma})=-\frac{x-\mu}{\sigma^{2}}f_{X}(x)$

F_{X} (x) = Φ (\frac{x - μ}{σ}) ⟹ F_{X}^{- 1} (x) = μ + σ Φ^{- 1} (x)

$F_{X}(x)=\Phi(\frac{x-\mu}{\sigma})\implies F_{X}^{-1}(x)=\mu+\sigma\Phi^{-1}(x)$

Tenga en cuenta que Y la expectativa se convierte aproximadamente: $f_{X}(\nu_{i})=\frac{1}{\sigma}\phi\left[\Phi^{-1}\left(\frac{i}{N+1}\right)\right]$

E [x_{i}] \approx μ + σ Φ^{- 1} (\frac{i}{N + 1}) + \frac{(\frac{i}{N + 1}) (1 - \frac{i}{N + 1})}{2 (N + 2)} \frac{σ Φ^{- 1} (\frac{i}{N + 1})}{{[ϕ [Φ^{- 1} (\frac{i}{N + 1})]]}^{2}}

$E[x_{i}]\approx \mu+\sigma\Phi^{-1}\left(\frac{i}{N+1}\right)+\frac{\left(\frac{i}{N+1}\right)\left(1-\frac{i}{N+1}\right)}{2(N+2)}\frac{\sigma\Phi^{-1}\left(\frac{i}{N+1}\right)}{\left[\phi\left[\Phi^{-1}\left(\frac{i}{N+1}\right)\right]\right]^{2}}$

Y finalmente:

E [x_{i}] \approx μ + σ Φ^{- 1} (\frac{i}{N + 1}) [1 + \frac{(\frac{i}{N + 1}) (1 - \frac{i}{N + 1})}{2 (N + 2) {[ϕ [Φ^{- 1} (\frac{i}{N + 1})]]}^{2}}]

$E[x_{i}]\approx \mu+\sigma\Phi^{-1}\left(\frac{i}{N+1}\right)\left[1+\frac{\left(\frac{i}{N+1}\right)\left(1-\frac{i}{N+1}\right)}{2(N+2)\left[\phi\left[\Phi^{-1}\left(\frac{i}{N+1}\right)\right]\right]^{2}}\right]$

Aunque, como ha señalado @whuber, esto no será exacto en las colas. De hecho, creo que puede ser peor, debido a la asimetría de una beta con diferentes parámetros

probabilidadislogica
fuente

1

¿"Estimador de máxima verosimilitud de una variable aleatoria "? No estoy seguro de qué es eso, pero creo que (casi) has calculado el modo .

cardenal

1

Algo misterioso ocurre alrededor de dos tercios del camino cuando de repente y aparecen sin advertencia o definición.

μ

$\mu$

σ

$\sigma$

whuber

2

No me refiero a "apilar", pero también es difícil para mí ver cómo la cantidad entre paréntesis se puede aproximar por un número negativo.

cardenal

1

@probabilityislogic, mientras que a nivel de cálculo, podría decir que en este caso estamos considerando una función bivariada y simplemente maximizando sobre una variable en lugar de otra, creo que hay razones matemáticas, estadísticas y pedagógicas para no llamar a lo que usted llama he hecho "estimación de máxima verosimilitud". Son demasiado numerosos para enumerar en este espacio, pero uno simple que creo que es lo suficientemente convincente es que usamos un vocabulario arcano particular en estadística por una razón. Cambiar eso por capricho por un solo problema puede conducir a malentendidos (s) ... / ...

cardenal

2

@probabilityislogic (+1) para la respuesta revisada. Una sugerencia, tal vez es mejor que que significa "implica". Le tomó mirar un par de líneas durante unos segundos para darse cuenta de que no estaba haciendo un reclamo de convergencia.

\Rightarrow

$\Rightarrow$

\to

$\to$

cardenal

13

La respuesta de Aniko se basa en la conocida fórmula de Blom que implica una elección de . Resulta que esta fórmula es en sí misma una mera aproximación de una respuesta exacta debido a G. Elfving (1947), La distribución asintótica del rango en muestras de una población normal , Biometrika, vol. 34, págs. 111-119. La fórmula de Elfving está dirigida al mínimo y al máximo de la muestra, para la cual la elección correcta de alfa es . La fórmula de Blom resulta cuando aproximamos por . $\alpha = 3/8$ $\pi/8$ $\pi$ $3$

Al usar la fórmula de Elfving en lugar de la aproximación de Blom, obtenemos un multiplicador de -2.744165. Este número está más cerca de la respuesta exacta de Erik P. (-2.746) y de la aproximación de Monte Carlo (-2.75) que la aproximación de Blom (-2.73), aunque es más fácil de implementar que la fórmula exacta.

Hal M. Switkay
fuente

¿Podría darnos un poco más de detalles sobre cómo se llega a a través de Elfving (1947)? No es obvio en el artículo.

α = π / 8

$\alpha=\pi/8$

Anthony

1

Anthony - Estoy confiando en el libro de texto Mathematical Statistics, de Samuel Wilks, pub. Wiley (1962). Ejercicio 8.21 en la p. 249 estados: "Si x_ (1), x_ (n) son las estadísticas de orden más pequeño y más grande de una muestra de tamaño n de un cdf continuo F (x) ... la variable aleatoria 2n * sqrt {[F (x_ ( 1))] [1-F (x_ (n))]} tiene una distribución límite como n -> infinito, con media pi / 2 y varianza 4- (pi ^ 2) / 4 ". (Lo siento, ¡no sé el código de marcado!) Para una distribución simétrica, F (x_ (1)) = 1-F (x_ (n)). Así, F (x_ (n)) se trata de pi / (4n), o x_ (n) se trata de F ^ (- 1) (pi / (4n)). La fórmula de Blom usa la aproximación 3 / (4n).

Hal M. Switkay

Esto me recuerda el infame proyecto de ley " " atribuido a la Legislatura del Estado de Indiana. (Aunque el artículo de wikipedia sugiere que la versión popular de la historia no es precisa.)

π = 3

$\pi=3$

steveo'america

7

Dependiendo de lo que quiera hacer, esta respuesta puede o no ayudar: obtuve la siguiente fórmula exacta del paquete de estadísticas de Maple .

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

\int_{- \infty}^{\infty} 1 / 2 \frac{_t 0 n! \sqrt{2} e^{- 1 / 2 {_t 0}^{2}} {(1 / 2 - 1 / 2 e r f (1 / 2_t 0 \sqrt{2}))}^{- 1 + n}}{(- 1 + n)! \sqrt{π}} d_t 0

$\int _{-\infty }^{\infty }\!1/2\,{\frac {{\it \_t0}\,n!\,\sqrt {2}{ {\rm e}^{-1/2\,{{\it \_t0}}^{2}}} \left( 1/2-1/2\, {{\rm erf}\left(1/2\,{\it \_t0}\,\sqrt {2}\right)} \right) ^{-1+n}}{ \left( -1+n \right) !\,\sqrt {\pi }}}{d{\it \_t0}}$

Por sí solo, esto no es muy útil (y probablemente podría derivarse con bastante facilidad a mano, ya que es el mínimo de variables aleatorias), pero permite una aproximación rápida y muy precisa para valores dados de , mucho más preciso que Monte Carlo: $n$ $n$

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

da -2.746042447 y -2.746042447451154492412344, respectivamente.

(Divulgación completa: mantengo este paquete).

Erik P.
fuente

1

@ProbabilityIsLogic obtuvo esta integral para todas las estadísticas de pedidos en la primera mitad de su respuesta.

whuber

Estadísticas de orden aproximadas para variables aleatorias normales

Respuestas: