¿Cómo puedo encontrar la desviación estándar de la desviación estándar de la muestra de una distribución normal?

11

Perdóname si me he perdido algo bastante obvio.

Soy un físico con lo que es esencialmente una distribución (histograma) centrada en un valor medio que se aproxima a una distribución Normal. El valor importante para mí es la desviación estándar de esta variable aleatoria gaussiana. ¿Cómo trataría de encontrar el error en la desviación estándar de muestra? Tengo la sensación de que tiene algo que ver con el error en cada bin en el histograma original.

Bronceado
fuente
Se proporciona una pista en stats.stackexchange.com/questions/26924 . En general, el error de muestreo de una varianza puede calcularse en términos de los primeros cuatro momentos de la distribución y, por lo tanto, el error de muestreo de la SD puede al menos estimarse a partir de esos momentos.
whuber

Respuestas:

12

Parece que está pidiendo un cálculo de la desviación estándar de la desviación estándar de la muestra. Es decir, está solicitando , dondeSD(s)=var(s)

s=1n1i=1n(XiX¯),

¯ XX1,...,XnN(μ,σ2) y es la media muestral.X¯

Primero, sabemos por las propiedades básicas de la varianza que

var(s)=E(s2)E(s)2

Como la varianza de la muestra es insesgada, sabemos que . En ¿ Por qué la desviación estándar muestral es un estimador sesgado de ? , se calcula, de lo que podemos inferirσ E ( s )E(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

por lo tanto

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2
Macro
fuente
Buen punto. Obtuve una estimación de la varianza de s ^ 2. Tomar la raíz cuadrada da una estimación de la desviación estándar de s ^ 2. Pero respondiste la pregunta real que era obtener la desviación estándar de s. Supongo que, por razones prácticas, usted también debería reemplazar σ con s para obtener una estimación utilizando la fórmula.
Michael R. Chernick
Sí, es cierto, puede reemplazar con esta aproximación funciona bien incluso para tamaños de muestra modestos. Hice algunas pruebas con . σsn=20
Macro
11

La cantidad tiene una distribución chi-cuadrado con grados de libertad cuando las muestras son independientes y se distribuyen con la misma distribución normal. Esta cantidad se puede usar para obtener confianza intervalos para la varianza de lo normal y su desviación estándar. Si tiene los valores brutos y no solo el valor central de los contenedores, puede calcular . X=(n1)s2/σ2n1s2

Se sabe que si tiene una distribución de chi-cuadrado con grados de libertad, su varianza es . Sabiendo esto y el hecho de que obtenemos que tiene una varianza igual a Aunque es desconocido, puede aproximarlo por y tiene una idea aproximada de cuál es la varianza de .n - 1 2 ( n - 1 )Xn12(n1)Var(cX)=c2Var(X)s2

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2
Michael R. Chernick
fuente
Iba a publicar esto al principio, pero el problema tal como lo veo aquí es que es desconocido. Dado ese hecho, no sé si es válido aproximar si ni siquiera sabemos el tamaño de la muestra. Recuerdo que se puede demostrar que el cuarto momento puede tener serios problemas con los valores atípicos. σ2s4σ4
Néstor
s4 es un estimador consistente de (siempre que exista ), ¿verdad @Nesp? Creo que esto suele ser lo que significa cuando la gente dice "aproximada" o "idea aproximada". σ4σ4
Macro
2
Tal vez sea la falta de sueño, pero, ¿no es eso como un razonamiento circular?
Néstor
Asumimos desde el principio que los datos provenían de una distribución normal, por lo que no hay un problema atípico. Quise decir rudo en la forma en que Macro sugiere. Estoy de acuerdo en que el tamaño de la muestra afecta qué tan cerca está s ^ 4 de σ ^ 4. Pero la preocupación por los valores atípicos está fuera de la base Nesp. Si me rechazaste por eso, creo que es muy injusto. Lo que presenté fue la forma estándar de estimar la desviación estándar para s ^ 2 cuando los datos se DISTRIBUYEN NORMALMENTE.
Michael R. Chernick
@Nesp, Michael ha dado un estimador consistente de la varianza de la desviación estándar de la muestra de una muestra distribuida normalmente, para muestras grandes funcionará bien, simúlela y averigüe. No estoy seguro de por qué crees que esto es un razonamiento circular.
Macro
7

Hay varias formas de cuantificar el error de la desviación estándar en el caso normal. Voy a presentar la probabilidad de perfil de que se puede usar para aproximar los intervalos de confianza.σ

Sea una muestra de un Normal . La función de probabilidad correspondiente está dada porx=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

Luego, los estimadores de máxima verosimilitud están dados por , donde . Dado que está interesado en cuantificar el error en , puede calcular la probabilidad de perfil normalizado de este parámetro de la siguiente manera.(μ^,σ^)=(x¯,s)σs=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

Tenga en cuenta que . Un intervalo de nivel tiene una confianza aproximada de . A continuación, adjunto un código que puede usarse para calcular estos intervalos. Puede modificarlo en consecuencia en su contexto (o si publica los datos, puedo incluir estos cambios).0.147 0.95 RRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

Una ventaja de este tipo de intervalos es que son invariables bajo transformaciones. En este caso, si calcula un intervalo para , , entonces el intervalo correspondiente para es simplemente .I = ( L , U ) σ 2 I = ( L 2 , U 2 )σI=(L,U)σ2I=(L2,U2)


fuente
Creo que realmente solo quería la desviación estándar de s.
Michael R. Chernick