Antecedentes
Tengo una variable con una distribución desconocida.
Tengo 500 muestras, pero me gustaría demostrar la precisión con la que puedo calcular la varianza, por ejemplo, argumentar que un tamaño de muestra de 500 es suficiente. También estoy interesado en conocer el tamaño mínimo de muestra que se requeriría para estimar la varianza con una precisión de .
Preguntas
Como puedo calcular
- ¿La precisión de mi estimación de la varianza dado un tamaño de muestra de ? de ?
- ¿Cómo puedo calcular el número mínimo de muestras necesarias para estimar la varianza con una precisión de ?
Ejemplo
Figura 1 estimación de densidad del parámetro basada en las 500 muestras.
Figura 2 Aquí hay una gráfica del tamaño de la muestra en el eje x frente a las estimaciones de varianza en el eje y que he calculado usando submuestras de la muestra de 500. La idea es que las estimaciones converjan a la varianza verdadera a medida que n aumenta .
Sin embargo, las estimaciones no son válidas independientemente ya que las muestras utilizadas para estimar la varianza para no son independientes entre sí o de las muestras utilizadas para calcular la varianza en n ∈ [ 20 , 40 , 80 ]
Respuestas:
Para las variables aleatorias iid , el estimador insesgado para la varianza s 2X1,…,Xn s2 (la que tiene el denominador ) tiene varianza:n−1
donde es el exceso de curtosis de la distribución (referencia: Wikipedia ). Entonces ahora también necesita estimar la curtosis de su distribución. Puede usar una cantidad a veces descrita como γ 2 (también de Wikipedia ):κ γ2
Supongo que si usa como una estimación para σ y γ 2 como una estimación para κ , obtendrá una estimación razonable para V a r ( s 2 ) , aunque no veo una garantía de que sea imparcial. Vea si coincide con la variación entre los subconjuntos de sus 500 puntos de datos razonablemente, y si ya no se preocupa por eso :)s σ γ2 κ Var(s2)
fuente
moments
library(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Aprender una variación es difícil.
Se necesita un (quizás sorprendentemente) gran número de muestras para estimar bien una varianza en muchos casos. A continuación, mostraré el desarrollo del caso "canónico" de una muestra iid normal.
Suponga que , i = 1 , ... , n son variables aleatorias independientes N ( μ , σ 2 ) . Buscamos un intervalo de confianza del 100 ( 1 - α ) % para la varianza de modo que el ancho del intervalo sea ρ s 2 , es decir, el ancho sea el 100 ρ % de la estimación puntual. Por ejemplo, si ρ = 1 / 2 , entonces la anchura de la CI es la mitad del valor de la estimación puntual, por ejemplo, siYi i=1,…,n N(μ,σ2) 100(1−α)% ρs2 100ρ% ρ=1/2 , entonces el IC sería algo así como ( 8 ,s2=10 , que tiene un ancho de 5. Observe también la asimetría alrededor de la estimación puntual. ( s 2 es el estimador imparcial de la varianza).(8,13) s2
El "intervalo de confianza" (más bien, "a") para es ( n - 1 ) s 2s2
donde χ 2
Queremos minimizar el ancho para que por lo que nos queda resolver para n tal que ( n - 1 ) ( 1
Para el caso de un intervalo de confianza 99%, obtenemos para ρ = 1 y n = 5321 para ρ = 0,1 . Este último caso produce un intervalo que es ( ¡todavía! ) 10% tan grande como la estimación puntual de la varianza.n=65 ρ=1 n=5321 ρ=0.1
Si su nivel de confianza elegido es inferior al 99%, se obtendrá el mismo intervalo de ancho para un valor inferior de . Pero, n aún puede ser más grande de lo que habría imaginado.n n
Una gráfica del tamaño de muestra versus el ancho proporcional ρ muestra algo que se ve asintóticamente lineal en una escala log-log; en otras palabras, una relación de poder-ley. Podemos estimar el poder de esta relación poder-ley (crudamente) comon ρ
que, lamentablemente, ¡es decididamente lento!
Este es el caso "canónico" para darle una idea de cómo hacer el cálculo. Según sus gráficos, sus datos no se ven particularmente normales; en particular, existe lo que parece ser un sesgo notable.
Pero, esto debería darle una idea general de qué esperar. Tenga en cuenta que para responder a su segunda pregunta anterior, es necesario corregir primero un cierto nivel de confianza, que he establecido en 99% en el desarrollo anterior para fines de demostración.
fuente
I would focus on the SD rather than the variance, since it's on a scale that is more easily interpreted.
People do sometimes look at confidence intervals for SDs or variances, but the focus is generally on means.
The results you give for the distribution ofs2/ /σ2 se puede usar para obtener un intervalo de confianza para σ2 (y también σ ); most introductory math/stat texts would give the details in the same section in which the ditribution of σ2 was mentioned. I would just take 2.5% from each tail.
fuente
The following solution was given by Greenwood and Sandomire in a 1950 JASA paper.
LetX1,…,Xn be a random sample from a N(μ,σ2) distribution. You will make inferences about σ using as (biased) estimator the sample standard deviation
It follows that
and the necessary sample size is found solving the former equation inn for given γ and u .
R
code.Output foru=10% and γ=95% .
fuente