Error estándar de cálculo en la estimación de la media ponderada

16

Supongamos que y se dibuja cada iid de algunas distribuciones, con independiente de . Los son estrictamente positivos. Usted observa todo el , pero no el ; más bien observas . Estoy interesado en estimar partir de esta información. Claramente, el estimador es imparcial y puede calcularse con la información disponible.w1,w2,,wnx1,x2,...,xnwixiwiwixiixiwiE[x]

x¯=iwixiiwi

¿Cómo podría calcular el error estándar de este estimador? Para el sub-caso donde toma solo los valores 0 y 1, intente ingenuamente básicamente ignorando la variabilidad en , pero descubrió que esto funcionó mal para tamaños de muestra más pequeños que alrededor de 250. (Y esto probablemente depende de la varianza de .) Parece que tal vez no tengo suficiente información para calcular un error estándar "mejor".xiwiwi

sex¯(1x¯)iwi2iwi,
wiwi
shabbychef
fuente

Respuestas:

17

Me encontré con el mismo problema recientemente. Lo siguiente es lo que encontré:

A diferencia de una muestra aleatoria simple con pesos iguales, no existe una definición ampliamente aceptada de error estándar de la media ponderada . En estos días, sería sencillo hacer un arranque y obtener la distribución empírica de la media, y en base a esa estimación, el error estándar.

¿Qué pasa si uno quisiera usar una fórmula para hacer esta estimación?

La referencia principal es este documento , de Donald F. Gatz y Luther Smith, donde se comparan 3 estimadores basados ​​en fórmulas con los resultados de bootstrap. La mejor aproximación al resultado de bootstrap proviene de Cochran (1977):

(SEMw)2=n(n1)(Pi)2[(PiXiP¯X¯w)22X¯w(PiP¯)(PiXiP¯X¯w)+X¯w2(PiP¯)2]

El siguiente es el código R correspondiente que vino de este hilo de RerveServe .

weighted.var.se <- function(x, w, na.rm=FALSE)
#  Computes the variance of a weighted mean following Cochran 1977 definition
{
  if (na.rm) { w <- w[i <- !is.na(x)]; x <- x[i] }
  n = length(w)
  xWbar = weighted.mean(x,w,na.rm=na.rm)
  wbar = mean(w)
  out = n/((n-1)*sum(w)^2)*(sum((w*x-wbar*xWbar)^2)-2*xWbar*sum((w-wbar)*(w*x-wbar*xWbar))+xWbar^2*sum((w-wbar)^2))
  return(out)
}

¡Espero que esto ayude!

Ming K
fuente
Esto es bastante bueno, pero para mi problema ni siquiera observo el , sino que observo la suma i P i X i . Mi pregunta es muy extraña porque implica cierta asimetría de información (un tercero está informando la suma e intentando ocultar algo de información). PiXiiPiXi
shabbychef
Dios, tienes razón, lo siento, no entendí completamente la pregunta que planteaste. Supongamos que hervir el problema hasta el caso más simple, donde todo son Bernoulli RV. Entonces esencialmente estás observando la suma de un subconjunto aleatorio de n RVs. Supongo que no hay mucha información aquí para estimar. Entonces, ¿qué terminaste haciendo por tu problema original? win
Ming K
@ Ming-ChihKao esta fórmula de Cochran es interesante, pero si construye un intervalo de confianza a partir de esto cuando los datos no son normales, ¿no hay una interpretación coherente correcta? ¿Cómo manejaría los intervalos de confianza promedio ponderados no normales? Cuantiles ponderados?
user3022875
Creo que hay un error con la función. Si sustituyes w=rep(1, length(x)), entonces weighted.var.se(rnorm(50), rep(1, 50))se trata 0.014. Creo que a la fórmula le falta un sum(w^2)numerador, ya que cuando P=1la varianza es 1/(n*(n-1)) * sum((x-xbar)^2). No puedo consultar el artículo citado ya que está detrás de un muro de pago, pero creo que esa corrección. Por extraño que parezca, la solución (diferente) de Wikipedia se degenera cuando todos los pesos son iguales: en.wikipedia.org/wiki/… .
Max Candocia
Estos pueden funcionar mejor en general: analyticalgroup.com/download/WEIGHTED_MEAN.pdf
Max Candocia
5

La varianza de su estimación dada la es w 2 i V a r ( X )wi Como su estimación es imparcial para cualquierwi, la varianza de su media condicional es cero. Por lo tanto, la varianza de su estimación es Var(X)E( w 2 i

wi2Var(X)(wi)2=Var(X)wi2(wi)2.
wi Con todos los datos observados, esto sería fácil de estimar empíricamente. Pero con sólo una medida de la ubicación de laXiobservado, y no su difusión, no veo cómo va a ser posible obtener una estimación deVunr(X), sin hacer suposiciones bastante severas.
Var(X)E(wi2(wi)2)
XiVar(X)
invitado
fuente
XyoXx¯(1x¯)