Relación entre el rango y la desviación estándar

14

En un artículo encontré la fórmula para la desviación estándar de un tamaño de muestra N

σ=R¯2.534

donde R¯ es el rango promedio de submuestras (tamaño 6 ) de la muestra principal. ¿Cómo se calcula el número 2.534 ? Este es el número correcto?

Andy
fuente
66
Referencias por favor. Más importante aún: 1. No puede haber un "número correcto" aquí independientemente del tipo de distribución de la que está dibujando. 2. Estas reglas generalmente provienen del interés en los métodos abreviados para estimar la DE a partir del rango. Ahora tenemos computadoras ... ¿Quieres hacer eso y por qué? ¿Por qué no solo usar los datos?
Nick Cox
3
@ Nick Lo siento: estabas en lo correcto. Un valor de alrededor de 4 funciona para la desviación estándar cuando el tamaño de la muestra es de alrededor de 15 a 50 ; 3 funciona para tamaños de muestra alrededor de 10 , etc. ¡Eliminaré mi comentario anterior para que no confunda a nadie más que a mí mismo!
whuber
1
@ NickCox es una antigua fuente rusa y no vi la fórmula antes.
Andy
3
Dar referencias rara vez es una mala idea. Deje que los lectores decidan por sí mismos si son interesantes o accesibles. (Hay mucha gente aquí que puede leer ruso, por ejemplo.)
Nick Cox

Respuestas:

17

En una muestra de n valores independientes de una distribución F con pdf fxnFf , el pdf de la distribución conjunta de los extremos y max ( x ) = x [ n ] es proporcional amin(x)=x[1]max(x)=x[n]

f(x[1])(F(x[n])F(x[1]))n2f(x[n])dx[1]dx[n]=HF(x[1],x[n])dx[1]dx[n].

(La constante de proporcionalidad es el recíproco del coeficiente multinomial . Intuitivamente, este PDF conjunto expresa la posibilidad de encontrar el valor más pequeño en el rango[x[1],x[1]+dx[1], y losvaloresintermediosn-2entre ellos dentro del rango[x[1]+dx[1],x(n1,n2,1)=n(n1) , el valor más grande en el rango [ x [ n ] , x [ n ] + d x [ n ] )[x[1],x[1]+dx[1])[x[n],x[n]+dx[n])n2. CuandoF)d x [ 1 ] ,f( x [ n ] )d x [ n ] ,[x[1]+dx[1],x[n])F es continuo, podemos reemplazar ese rango medio por , descuidando así solo una cantidad de probabilidad "infinitesimal". Las probabilidades asociadas, de primer orden en los diferenciales, son f ( x [ 1 ](x[1],x[n]]f(x[1])dx[1], f(x[n])dx[n], y ., Respectivamente, ahora por lo que es obvio que la fórmula viene)F(x[n])F(x[1]),

Tomando la expectativa del rango x[n]x[1] da para cualquier distribución Normal con desviación estándar σ y n = 6 . El rango esperado como múltiplo de σ depende del tamaño de la muestra n :2.53441 σσn=6σn

Normal

Estos valores se calcularon integrando numéricamente sobre{(x,y)R2| xy}, conFestablecido en el CDF normal estándar, y dividido por la desviación estándar deF(que es solo1).(n1,n2,1)(yx)HF(x,y)dxdy{(x,y)R2|xy}FF1

Una relación multiplicativa similar entre el rango esperado y la desviación estándar se mantendrá para cualquier familia de distribuciones de escala de ubicación, porque es una propiedad de la forma de la distribución sola. Por ejemplo, aquí hay una gráfica comparable para distribuciones uniformes:

Uniforme

y distribuciones exponenciales:

Exponencial

Los valores en los dos gráficos anteriores se obtuvieron por integración exacta, no numérica, que es posible debido a las formas algebraicas relativamente simples de y F en cada caso. Para las distribuciones uniformes son iguales a n - 1fF y para las distribuciones exponenciales sonn1(n+1)12 dondeγes la constante de Euler yψes la función "polígama", la derivada logarítmica de la función Gamma de Euler.γ+ψ(n)=γ+Γ(n)Γ(n)γψ

Aunque difieren (debido a que estas distribuciones muestran una amplia gama de formas), las tres están más o menos de acuerdo con , lo que demuestra que el multiplicador 2.5 no depende en gran medida de la forma y, por lo tanto, puede servir como una evaluación general y robusta de la desviación estándar cuando se conocen rangos de pequeñas submuestras. (De hecho, el estudiante t de cola muy pesadan=62.5t distribución de con tres grados de libertad todavía tiene un multiplicador de alrededor de para n = 6 , no muy lejos de 2.5 ).2.3n=62.5

whuber
fuente
66
Maravillosa exposición! Puede interesarle saber que esto parece haber sido investigado en la década de 1920. Ver Tippet 1925 . En las tablas de Tippet (Tabla X), el valor esperado para el rango dada una muestra de tamaño 6 es . Muestra la derivación de la distribución completa del rango para la distribución normal. Esto fue utilizado por David et.al. (1954) para calcular los puntos de probabilidad de la distribución del rango para una prueba de normalidad (ver D'Agostino y Stephens 9.3.3.4.2). 2.53441σ
Abraham
@Avraham Gracias por los comentarios esclarecedores. Lo que me llamó la atención cuando agregué los gráficos es que la parte realmente inteligente de todo este enfoque es el uso de submuestras de tamaño seis porque allí es donde todos los multiplicadores tienden a ser casi iguales, independientemente de la forma de distribución.
whuber
¡Gracias! Las tablas de Tippet realmente dan el multiplicador apropiado para todos los números entre 2 y 1000. Él menciona encontrarse con problemas de cálculo; Por supuesto, esto fue en 1925, unos 20 años antes de ENIAC.
Abraham
@whuber, ¿puede mostrar cómo se calculó el número (2.534)?
Andy
Edité la respuesta para incluir explicaciones de los cálculos.
whuber
4

Esa aproximación está muy cerca de la verdadera desviación estándar de la muestra. Escribí un guión R rápido para ilustrarlo:

x = sample(1:10000,6000,replace=TRUE)

B = 100000
R = rep(NA,B)
for(i in 1:B){
    samp = sample(x,6)
    R[i] = max(samp)-min(samp)
}

mean(R)/2.534

sd(x)

cuyos rendimientos:

> mean(R)/2.534
[1] 2819.238
> 
> sd(x)
[1] 2880.924

Ahora no estoy seguro (todavía) de por qué esto funciona, pero al menos parece (al pie de la letra) que la aproximación es decente.

Editar: Vea el comentario excepcional de @ Whuber (arriba) sobre por qué esto funciona


fuente
1
Está dibujando submuestras de tamaño partir de una distribución aproximadamente uniforme. Para una distribución verdaderamente uniforme, la relación es 10 6103/72.474mean(R)/2.4742887.6sd(x)
¡Muy cierto! > mean(R)/2.474 [1] 2887.611