Desviación estándar de desviación estándar

54

¿Qué es un estimador de la desviación estándar de la desviación estándar si se puede suponer la normalidad de los datos?

Ferdi
fuente
Supongo que está buscando la distribución de la varianza muestral . Esto enlaza a una sección en la página de Wikipedia sobre la variación el 16:55, 21 de agosto de 2016. Debido a que este es un enlace a Wikipedia, el artículo podría cambiar en el futuro. Por lo tanto, la sección puede no reflejar los contenidos a los que se refiere esta respuesta después de dichos cambios. Por lo tanto, aquí se proporciona un enlace a una versión histórica de la página de Wikipedia. El artículo actual sobre la varianza se encuentra [aquí] ( en.wikipedia.org/wik

Respuestas:

58

Deje . Como se muestra en este hilo , la desviación estándar de la desviación estándar de la muestra,X1,...,XnN(μ,σ2)

s=1n1i=1n(XiX¯),

es

SD(s)=E([E(s)s]2)=σ12n1(Γ(n/2)Γ(n12))2

donde es la función gamma , es el tamaño de la muestra y es la media de la muestra. Como es un estimador consistente de , esto sugiere reemplazar con en la ecuación anterior para obtener un estimador consistente de .n ¯ X = 1Γ()nsσσsSD(s)X¯=1ni=1nXisσσsSD(s)

Si busca un estimador imparcial, vemos en este hilo que , que, por linealidad de expectativa, sugiereE(s)=σ2n1Γ(n/2)Γ(n12)

sn12Γ(n12)Γ(n/2)

como un estimador imparcial de . Todo esto junto con la linealidad de la expectativa proporciona un estimador imparcial de : S D ( s )σSD(s)

sΓ(n12)Γ(n/2)n12(Γ(n/2)Γ(n12))2
Macro
fuente
12
+1 Es agradable ver que no solo aparece una mejor respuesta después de casi dos años, sino una respuesta que proporciona más detalles útiles que las referencias en otras partes de este hilo.
whuber
2
¿Se olvidó de cuadrar las distancias en la primera fórmula?
danijar
2
La función Gamma es difícil de calcular para valores no pequeños de . Aplicando la aproximación de Stirling, obtengo , que es computacionalmente factible y un poco más compacto en cuanto a expresión. s nse(11n)n11
Equaeghe
1
Probablemente valga la pena señalar que s (calculada en la respuesta de @ Macro a veces se denomina error estándar de la desviación estándar de la muestra.)
Harvey Motulsky
Para aquellos que desean una forma simple, es una buena aproximación a un nivel de porcentaje. s/2(n1)
Syrtis Major
5

Suponga que observa iid desde una normal con media cero y varianza . La desviación estándar (empírica) es la raíz cuadrada del estimador de (imparcial o no, esa no es la pregunta). Como estimador (obtenido con ), tiene una varianza que puede calcularse teóricamente. ¿Quizás lo que usted llama la desviación estándar de la desviación estándar es en realidad la raíz cuadrada de la varianza de la desviación estándar, es decir, ? No es un estimador, es una cantidad teórica (algo así comoσ 2 σ 2 σ 2 X 1 , ... , X n σX1,,Xnσ2σ^2σ2X1,,Xnσ^ σ/E[(σσ^)2]σ/n por confirmar) que se puede calcular explícitamente

robin girard
fuente
¿No es esa una función de estimador sigue siendo un estimador? Todavía no sé \ sigma, solo X_i.
σ^/n
2σ^22n
1
σ^2n
-3

@Macro proporcionó una gran explicación matemática con ecuaciones para calcular. Aquí hay una explicación más general para personas menos matemáticas.

Creo que la terminología "SD de SD" es confusa para muchos. Es más fácil pensar en el intervalo de confianza de una SD. ¿Qué tan precisa es la desviación estándar que calcula de una muestra? Por casualidad, es posible que haya obtenido datos estrechamente agrupados, lo que hace que la muestra SD sea mucho más baja que la población SD. O puede haber obtenido valores aleatorios que están mucho más dispersos que la población general, lo que hace que la muestra SD sea más alta que la población SD.

Interpretar el CI de la SD es sencillo. Comience con la suposición habitual de que sus datos se muestrearon de forma aleatoria e independiente de una distribución gaussiana. Ahora repita este muestreo muchas veces. Usted espera que el 95% de esos intervalos de confianza incluyan la SD real de la población.

¿Qué tan amplio es el intervalo de confianza del 95% de una SD? Depende del tamaño de la muestra (n), por supuesto.

n: IC 95% de DE

2: 0,45 * SD a 31,9 * SD

3: 0.52 * SD a 6.29 * SD

5: 0.60 * SD a 2.87 * SD

10: 0,69 * SD a 1,83 * SD

25: 0.78 * SD a 1.39 * SD

50: 0,84 * SD a 1,25 * SD

100: 0,88 * SD a 1,16 * SD

500: 0,94 * SD a 1,07 * SD

Calculadora web gratuita

Harvey Motulsky
fuente
Puedo hacer Montecarlo, solo quería hacerlo de una manera más "científica"; Todavía tiene razón en que la distribución no es normal, por lo que este SD será inútil para las pruebas.
44
Por lo que vale, me siento incómodo con la afirmación "un intervalo de confianza que es del 95% ... probablemente contenga la SD real" (o, más explícitamente en la página vinculada: "puede estar 95% seguro de que el CI calculado a partir de la muestra SD contiene la verdadera población SD "). Creo que estas declaraciones coquetean con el refuerzo de un concepto erróneo popular, ver aquí , por ejemplo, para una discusión relacionada sobre CV.
gung - Restablece a Monica
55
¿Qué es "Creo que tanto el concepto como la terminología de" SD de SD "es demasiado resbaladizo para abordar" que se supone que significa? La desviación estándar de la muestra es una variable aleatoria que tiene una desviación estándar.
Macro
@Macro. Gracias por tus comentarios. Reescribí sustancialmente.
Harvey Motulsky
1
@gung. Reescribí para explicar adecuadamente el intervalo de confianza.
Harvey Motulsky