Cálculo del tamaño de muestra requerido, precisión de la estimación de la varianza?

17

Antecedentes

Tengo una variable con una distribución desconocida.

Tengo 500 muestras, pero me gustaría demostrar la precisión con la que puedo calcular la varianza, por ejemplo, argumentar que un tamaño de muestra de 500 es suficiente. También estoy interesado en conocer el tamaño mínimo de muestra que se requeriría para estimar la varianza con una precisión de X% .

Preguntas

Como puedo calcular

  1. ¿La precisión de mi estimación de la varianza dado un tamaño de muestra de n=500 ? de n=N ?
  2. ¿Cómo puedo calcular el número mínimo de muestras necesarias para estimar la varianza con una precisión de X ?

Ejemplo

Figura 1 estimación de densidad del parámetro basada en las 500 muestras.

ingrese la descripción de la imagen aquí

Figura 2 Aquí hay una gráfica del tamaño de la muestra en el eje x frente a las estimaciones de varianza en el eje y que he calculado usando submuestras de la muestra de 500. La idea es que las estimaciones converjan a la varianza verdadera a medida que n aumenta .

Sin embargo, las estimaciones no son válidas independientemente ya que las muestras utilizadas para estimar la varianza para no son independientes entre sí o de las muestras utilizadas para calcular la varianza en n [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

ingrese la descripción de la imagen aquí

Abe
fuente
Solo tenga en cuenta que si un componente de su distribución desconocida es una distribución de Cauchy, la variación no está definida.
Mike Anderson
@ Mike O, de hecho, un número infinito de otras distribuciones.
Glen_b -Reinstalar Monica

Respuestas:

10

Para las variables aleatorias iid , el estimador insesgado para la varianza s 2X1,,Xns2 (la que tiene el denominador ) tiene varianza:n1

Var(s2)=σ4(2n1+κn)

donde es el exceso de curtosis de la distribución (referencia: Wikipedia ). Entonces ahora también necesita estimar la curtosis de su distribución. Puede usar una cantidad a veces descrita como γ 2 (también de Wikipedia ):κγ2

γ2=μ4σ43

Supongo que si usa como una estimación para σ y γ 2 como una estimación para κ , obtendrá una estimación razonable para V a r ( s 2 ) , aunque no veo una garantía de que sea imparcial. Vea si coincide con la variación entre los subconjuntos de sus 500 puntos de datos razonablemente, y si ya no se preocupa por eso :)sσγ2κVar(s2)

Erik P.
fuente
¿tiene una referencia de libro de texto para el estimador de varianza imparcial? No sé a dónde ir desde Wikipedia para obtener más contexto.
Abe
No tengo mi texto estándar Rice aquí conmigo, así que no puedo verificar el número de página, pero estoy seguro de que está ahí. Wikipedia sugiere que también debería mencionarse en: Montgomery, DC y Runger, GC: Estadística aplicada y probabilidad para ingenieros , página 201. John Wiley & Sons Nueva York, 1994.
Erik P.
Gracias por ayudarme con esto. Esta respuesta ha sido muy útil y ha sido informativa para cuantificar la incertidumbre de la varianza: he aplicado la ecuación unas 10 veces en el último día. calcular es fácil con la biblioteca: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe
¿Hay alguna posibilidad de que encuentre el número de página del texto de Rice? No puedo encontrarlo en Casella y Berger. Una referencia principal sería aún mejor si la conoces. La página de wikipedia está notablemente sin referencia.
Abe
Hmmm ... parece que Rice tampoco tiene la fórmula. Lo estaré atento, pero en este momento no tengo ninguna referencia.
Erik P.
15

Aprender una variación es difícil.

Se necesita un (quizás sorprendentemente) gran número de muestras para estimar bien una varianza en muchos casos. A continuación, mostraré el desarrollo del caso "canónico" de una muestra iid normal.

Suponga que , i = 1 , ... , n son variables aleatorias independientes N ( μ , σ 2 ) . Buscamos un intervalo de confianza del 100 ( 1 - α ) % para la varianza de modo que el ancho del intervalo sea ρ s 2 , es decir, el ancho sea el 100 ρ % de la estimación puntual. Por ejemplo, si ρ = 1 / 2 , entonces la anchura de la CI es la mitad del valor de la estimación puntual, por ejemplo, siYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2 , entonces el IC sería algo así como ( 8 ,s2=10 , que tiene un ancho de 5. Observe también la asimetría alrededor de la estimación puntual. ( s 2 es el estimador imparcial de la varianza).(8,13)s2

El "intervalo de confianza" (más bien, "a") para es ( n - 1 ) s 2s2 donde χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
es laβcuantil de la distribución chi-cuadrado conn-1grados de libertad. (Esto surge del hecho de que(n-1)s2/σ2es una cantidad fundamental en un entorno gaussiano).χ(n1)2ββn1(n1)s2/σ2

Queremos minimizar el ancho para que por lo que nos queda resolver para n tal que ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

Para el caso de un intervalo de confianza 99%, obtenemos para ρ = 1 y n = 5321 para ρ = 0,1 . Este último caso produce un intervalo que es ( ¡todavía! ) 10% tan grande como la estimación puntual de la varianza.n=65ρ=1n=5321ρ=0.1

Si su nivel de confianza elegido es inferior al 99%, se obtendrá el mismo intervalo de ancho para un valor inferior de . Pero, n aún puede ser más grande de lo que habría imaginado.nn

Una gráfica del tamaño de muestra versus el ancho proporcional ρ muestra algo que se ve asintóticamente lineal en una escala log-log; en otras palabras, una relación de poder-ley. Podemos estimar el poder de esta relación poder-ley (crudamente) comonρ

α^log0.1log1log5321log65=log10log5231650.525,

que, lamentablemente, ¡es decididamente lento!


Este es el caso "canónico" para darle una idea de cómo hacer el cálculo. Según sus gráficos, sus datos no se ven particularmente normales; en particular, existe lo que parece ser un sesgo notable.

Pero, esto debería darle una idea general de qué esperar. Tenga en cuenta que para responder a su segunda pregunta anterior, es necesario corregir primero un cierto nivel de confianza, que he establecido en 99% en el desarrollo anterior para fines de demostración.

cardenal
fuente
n|ρrhon=65ρ<1ρ1×s2ρ1%s2
@Abe, actualizado y con suerte aclarado en el proceso. Hubo un error tipográfico particularmente malo en la versión anterior. Lo siento por eso.
cardenal
Una respuesta muy agradable, pero elegí la de @Erik porque es más aplicable a mi problema (ya que mi parámetro no se distribuye normalmente).
Abe
@Abe: No hay problema. Para eso está la marca de verificación. Mi respuesta fue (tiene la intención) de ser ilustrativa, más que nada. De lo que puedo decir, no todavía parece ser el único que las direcciones tanto de sus preguntas, y estarán (asintótica) corregir incluso en el escenario que Erik contornos. (+1 a él hace más de un año.) :)
cardenal
s(ss)s[lcl,ucl]
1

I would focus on the SD rather than the variance, since it's on a scale that is more easily interpreted.

People do sometimes look at confidence intervals for SDs or variances, but the focus is generally on means.

The results you give for the distribution of s2/ /σ2 se puede usar para obtener un intervalo de confianza para σ2 (y también σ); most introductory math/stat texts would give the details in the same section in which the ditribution of σ2 was mentioned. I would just take 2.5% from each tail.

Karl
fuente
(This reply came here after a duplicate question, framed somewhat differently, was merged.)
whuber
1

The following solution was given by Greenwood and Sandomire in a 1950 JASA paper.

Let X1,,Xn be a random sample from a N(μ,σ2) distribution. You will make inferences about σ using as (biased) estimator the sample standard deviation

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
Zen
fuente