Relación entre el rango y la desviación estándar

En un artículo encontré la fórmula para la desviación estándar de un tamaño de muestra $N$

$\sigma=\frac{\overline{R}}{2.534}$

donde $\overline{R}$ es el rango promedio de submuestras (tamaño $6$ ) de la muestra principal. ¿Cómo se calcula el número $2.534$ ? Este es el número correcto?

standard-deviation descriptive-statistics range Andy
fuente

Referencias por favor. Más importante aún: 1. No puede haber un "número correcto" aquí independientemente del tipo de distribución de la que está dibujando. 2. Estas reglas generalmente provienen del interés en los métodos abreviados para estimar la DE a partir del rango. Ahora tenemos computadoras ... ¿Quieres hacer eso y por qué? ¿Por qué no solo usar los datos?

Nick Cox

@ Nick Lo siento: estabas en lo correcto. Un valor de alrededor de

4

$4$ funciona para la desviación estándar cuando el tamaño de la muestra es de alrededor de

15

$15$ a

50

$50$ ;

3

$3$ funciona para tamaños de muestra alrededor de

10

$10$ , etc. ¡Eliminaré mi comentario anterior para que no confunda a nadie más que a mí mismo!

whuber

@ NickCox es una antigua fuente rusa y no vi la fórmula antes.

Andy

Dar referencias rara vez es una mala idea. Deje que los lectores decidan por sí mismos si son interesantes o accesibles. (Hay mucha gente aquí que puede leer ruso, por ejemplo.)

Nick Cox

Respuestas:

En una muestra de valores independientes de una distribución con pdf $x$ $n$ $F$ $f$ , el pdf de la distribución conjunta de los extremos y es proporcional a $\min(x)=x_{[1]}$ $\max(x)=x_{[n]}$

f (x_{[1]}) {(F (x_{[n]}) - F (x_{[1]}))}^{n - 2} f (x_{[n]}) d x_{[1]} d x_{[n]} = H_{F} (x_{[1]}, x_{[n]}) d x_{[1]} d x_{[n]} .

$f(x_{[1]})\left(F(x_{[n]})-F(x_{[1]})\right)^{n-2}f(x_{[n]})dx_{[1]}dx_{[n]} = H_F(x_{[1]}, x_{[n]})dx_{[1]}dx_{[n]}.$

(La constante de proporcionalidad es el recíproco del coeficiente multinomial . Intuitivamente, este PDF conjunto expresa la posibilidad de encontrar el valor más pequeño en el rango, y losvaloresintermediosentre ellos dentro del rango $\binom{n}{1,n-2,1} = n(n-1)$ , el valor más grande en el rango $[x_{[1]},x_{[1]}+dx_{[1]})$ $[x_{[n]},x_{[n]}+dx_{[n]})$ $n-2$ . Cuando $[x_{[1]}+dx_{[1]}, x_{[n]})$ $F$ es continuo, podemos reemplazar ese rango medio por , descuidando así solo una cantidad de probabilidad "infinitesimal". Las probabilidades asociadas, de primer orden en los diferenciales, son $(x_{[1]}, x_{[n]}]$ $f(x_{[1]})dx_{[1]},$ $f(x_{[n]})dx_{[n]},$ y ., Respectivamente, ahora por lo que es obvio que la fórmula viene) $F(x_{[n]})-F(x_{[1]}),$

Tomando la expectativa del rango $x_{[n]} - x_{[1]}$ da para cualquier distribución Normal con desviación estándar y . El rango esperado como múltiplo de depende del tamaño de la muestra : $2.53441\ \sigma$ $\sigma$ $n=6$ $\sigma$ $n$

Normal

Estos valores se calcularon integrando numéricamente sobre, conestablecido en el CDF normal estándar, y dividido por la desviación estándar de(que es solo). $\binom{n}{1,n-2,1}\left(y-x\right)H_F(x,y)dxdy$ $\{(x,y)\in\mathbb{R}^2|x\le y\}$ $F$ $F$ $1$

Una relación multiplicativa similar entre el rango esperado y la desviación estándar se mantendrá para cualquier familia de distribuciones de escala de ubicación, porque es una propiedad de la forma de la distribución sola. Por ejemplo, aquí hay una gráfica comparable para distribuciones uniformes:

Uniforme

y distribuciones exponenciales:

Exponencial

Los valores en los dos gráficos anteriores se obtuvieron por integración exacta, no numérica, que es posible debido a las formas algebraicas relativamente simples de y en cada caso. Para las distribuciones uniformes son iguales a $f$ $F$ y para las distribuciones exponenciales son $\frac{n-1}{(n+1)}\sqrt{12}$ dondees la constante de Euler yes la función "polígama", la derivada logarítmica de la función Gamma de Euler. $\gamma + \psi(n) = \gamma + \frac{\Gamma'(n)}{\Gamma(n)}$ $\gamma$ $\psi$

Aunque difieren (debido a que estas distribuciones muestran una amplia gama de formas), las tres están más o menos de acuerdo con , lo que demuestra que el multiplicador no depende en gran medida de la forma y, por lo tanto, puede servir como una evaluación general y robusta de la desviación estándar cuando se conocen rangos de pequeñas submuestras. (De hecho, el estudiante cola muy pesada $n=6$ $2.5$ $t$ distribución de con tres grados de libertad todavía tiene un multiplicador de alrededor de para , no muy lejos de ). $2.3$ $n=6$ $2.5$

whuber
fuente

Maravillosa exposición! Puede interesarle saber que esto parece haber sido investigado en la década de 1920. Ver Tippet 1925 . En las tablas de Tippet (Tabla X), el valor esperado para el rango dada una muestra de tamaño 6 es

. Muestra la derivación de la distribución completa del rango para la distribución normal. Esto fue utilizado por David et.al. (1954) para calcular los puntos de probabilidad de la distribución del rango para una prueba de normalidad (ver D'Agostino y Stephens 9.3.3.4.2).

2.53441 σ

$2.53441\sigma$

Abraham

@Avraham Gracias por los comentarios esclarecedores. Lo que me llamó la atención cuando agregué los gráficos es que la parte realmente inteligente de todo este enfoque es el uso de submuestras de tamaño seis porque allí es donde todos los multiplicadores tienden a ser casi iguales, independientemente de la forma de distribución.

whuber

¡Gracias! Las tablas de Tippet realmente dan el multiplicador apropiado para todos los números entre 2 y 1000. Él menciona encontrarse con problemas de cálculo; Por supuesto, esto fue en 1925, unos 20 años antes de ENIAC.

Abraham

@whuber, ¿puede mostrar cómo se calculó el número (2.534)?

Andy

Edité la respuesta para incluir explicaciones de los cálculos.

whuber

Esa aproximación está muy cerca de la verdadera desviación estándar de la muestra. Escribí un guión R rápido para ilustrarlo:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

cuyos rendimientos:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Ahora no estoy seguro (todavía) de por qué esto funciona, pero al menos parece (al pie de la letra) que la aproximación es decente.

Editar: Vea el comentario excepcional de @ Whuber (arriba) sobre por qué esto funciona

fuente

Está dibujando submuestras de tamaño

partir de una distribución aproximadamente uniforme. Para una distribución verdaderamente uniforme, la relación es

6

$6$

10 \sqrt{3} / 7 \approx 2.474

$10\sqrt{3}/7\approx 2.474$ mean(R)/2.474

2887.6

$2887.6$ sd(x)

¡Muy cierto! > mean(R)/2.474 [1] 2887.611