¿Se puede calcular la desviación estándar para la media armónica? Entiendo que la desviación estándar se puede calcular para la media aritmética, pero si tiene una media armónica, ¿cómo calcula la desviación estándar o CV?
fuente
¿Se puede calcular la desviación estándar para la media armónica? Entiendo que la desviación estándar se puede calcular para la media aritmética, pero si tiene una media armónica, ¿cómo calcula la desviación estándar o CV?
La media armónica de las variables aleatorias se define como
Tomando momentos de las fracciones es un negocio sucio, así que en vez yo preferiría trabajar con el . Ahora
Usando el teorema del límite central, obtenemos que
si, por supuesto, y son iid, ya que simplemente trabajamos con la media aritmética de las variables .
Ahora usando el método delta para la función obtenemos que
Este resultado es asintótico, pero para aplicaciones simples puede ser suficiente.
Actualización Como @whuber señala con razón, las aplicaciones simples son un nombre inapropiado. El teorema del límite central se mantiene solo si existe, lo cual es una suposición bastante restrictiva.
Actualización 2 Si tiene una muestra, para calcular la desviación estándar, simplemente conecte los momentos de muestra a la fórmula. Entonces, para la muestra , la estimación de la media armónica es
Los momentos de muestra y respectivamente son:
aquí significa recíproco.
Finalmente, la fórmula aproximada para la desviación estándar de es
Ejecuté algunas simulaciones de Monte-Carlo para variables aleatorias distribuidas uniformemente en intervalos . Aquí está el código:
hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))
n<-1000
nn <- c(10,30,50,100,500,1000,5000,10000)
N<-1000
mc<-foreach(n=nn,.combine=rbind) %do% {
rr <- matrix(runif(n*N,min=2,max=3),nrow=N)
c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))
}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")
> mc
n DeltaSD sdDeltaSD trueSD
result.1 10 0.089879211 1.528423e-02 0.091677622
result.2 30 0.052870477 4.629262e-03 0.051738941
result.3 50 0.040915607 2.705137e-03 0.040257673
result.4 100 0.029017031 1.407511e-03 0.028284458
result.5 500 0.012959582 2.750145e-04 0.013200580
result.6 1000 0.009139193 1.357630e-04 0.009115592
result.7 5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259
Simulé N
muestras de muestras n
dimensionadas. Para cada n
muestra de tamaño, calculé la estimación de la estimación estándar (función sdhm
). Luego comparo la media y la desviación estándar de estas estimaciones con la desviación estándar de la muestra de la media armónica estimada para cada muestra, que supuestamente debería ser la verdadera desviación estándar de la media armónica.
Como puede ver, los resultados son bastante buenos incluso para tamaños de muestra moderados. Por supuesto, la distribución uniforme es muy buena, por lo que no sorprende que los resultados sean buenos. Dejaré que otra persona investigue el comportamiento de otras distribuciones, el código es muy fácil de adaptar.
Nota: En la versión anterior de esta respuesta hubo un error en el resultado del método delta, variación incorrecta.
Mi respuesta a una pregunta relacionada señala que la media armónica de un conjunto de datos positivos es una estimación de mínimos cuadrados ponderados (WLS) (con pesos ). Por lo tanto, puede calcular su error estándar utilizando métodos WLS. Esto tiene algunas ventajas, que incluyen simplicidad, generalidad e interpretabilidad, además de ser producido automáticamente por cualquier software estadístico que permita ponderaciones en su cálculo de regresión.xi 1/xi
La desventaja principal es que el cálculo no produce buenos intervalos de confianza para distribuciones subyacentes muy sesgadas. Es probable que eso sea un problema con cualquier método de propósito general: la media armónica es sensible a la presencia de incluso un pequeño valor en el conjunto de datos.
Para ilustrar, aquí hay distribuciones empíricas de muestras generadas independientemente de tamaño partir de una distribución Gamma (5) (que está ligeramente sesgada). Las líneas azules muestran la media armónica verdadera (igual a ) mientras que las líneas discontinuas rojas muestran las estimaciones de mínimos cuadrados ponderados. Las bandas grises verticales alrededor de las líneas azules son intervalos de confianza aproximados de 95% para la media armónica. En este caso, en las muestras, el IC cubre la media armónica verdadera. Las repeticiones de esta simulación (con semillas aleatorias) sugieren que la cobertura está cerca de la tasa prevista del 95%, incluso para estos pequeños conjuntos de datos.20 n=12 4 20
Aquí está el
R
código para la simulación y las figuras.fuente
Aquí hay un ejemplo de exponencial r.v's.
La media armónica para puntos de datos se define comon
Suponga que tiene iid muestras de una variable aleatoria exponencial, . La suma de variables exponenciales sigue una distribución gamman Xi∼Exp(λ) n
donde . También sabemos queθ=1λ
La distribución de es por lo tantoS
La varianza (y la desviación estándar) de este rv son bien conocidas, véase, por ejemplo, aquí .
fuente
Existe cierta preocupación de que CLT de mpiktas requiere una variación acotada en . Es cierto que tiene colas locas cuando tiene una densidad positiva alrededor de cero. Sin embargo, en muchas aplicaciones que usan la media armónica, . Aquí, está limitado por , ¡dándote todos los momentos que quieras!1/X 1/X X X≥1 1/X 1
fuente
Lo que sugeriría es utilizar la siguiente fórmula como sustituto de la desviación estándar:
donde . Lo bueno de esta fórmula es que se minimiza cuando , y tiene las mismas unidades que la desviación estándar (que son las mismas unidades que tiene).x^=N∑1xi x^=N∑1xi x
Esto está en analogía con la desviación estándar, que es el valor que toma cuando se minimiza sobre . Se minimiza cuando es la media: .1N∑(x^−xi)2−−−−−−−−−−−√ x^ x^ x^=μ=1N∑xi
fuente