Corrección de sesgo en varianza ponderada

22

Para la varianza no ponderada

Var(X):=1ni(xiμ)2
existe la varianza muestral corregida por sesgo, cuando la media se estimó a partir de los mismos datos:
Var(X):=1n1i(xiE[X])2

Estoy investigando la media ponderada y la varianza, y me pregunto cuál es la corrección de sesgo adecuada para la varianza ponderada. Utilizando:

mean(X):=1iωiiωixi

La varianza "ingenua" no corregida que estoy usando es esta:

Var(X):=1iωiiωi(ximean(X))2

Así que me pregunto si la forma correcta de corregir el sesgo es

A)

Var(X):=1iωi1iωi(ximean(X))2

o B)

Var(X):=nn11iωiiωi(ximean(X))2

o C)

Var(X):=iωi(iωi)2iωi2iωi(ximean(X))2

A) no tiene sentido para mí cuando los pesos son pequeños. El valor de normalización podría ser 0 o incluso negativo. Pero, ¿qué hay de B) ( es el número de observaciones), ¿es este el enfoque correcto? ¿Tienes alguna referencia que muestre esto? Creo "Actualización de las estimaciones de media y varianza: un método mejorado", DHD West, 1979 utiliza esto. El tercero, C) es mi interpretación de la respuesta a esta pregunta: /mathpro/22203/unditional-estimate-of-the-variance-of-an-unnormalised-weighted-meann

Para C) me acabo de dar cuenta de que el denominador se parece mucho a . ¿Hay alguna conexión general aquí? Creo que no se alinea por completo; y obviamente existe la conexión de que estamos tratando de calcular la varianza ...Var(Ω)

Los tres parecen "sobrevivir" al control de la cordura de configurar todos . Entonces, ¿cuál debo usar, bajo qué premisas? '' Actualización: '' Whuber sugirió hacer también la verificación de cordura con y todos los restantes tiny. Esto parece descartar A y B.ωi=1ω1=ω2=.5ωi=ϵ

Anony-Mousse
fuente
Cuando considera los casos en que los dos pesos más grandes son iguales y todo el resto se vuelve extremadamente pequeño, tanto (A) como (B) caen de la contienda (porque no están de acuerdo con los resultados conocidos para ). (C) parece ser una aproximación; Sospecho que el factor correcto es una función mucho más complicada de los pesos. n=2
whuber
@whuber ThePawn a continuación sugiere que es C. ¿Tiene inquietudes más detalladas?
Anony-Mousse
1
La solución (A) funciona, la he implementado en el pasado y puedo confirmar mediante pruebas empíricas que da los resultados correctos. Sin embargo, solo debe usar valores enteros para los pesos y> 0.
gaborous
¡Gracias! ¡Esto me ayudó mucho a ponerme en el camino correcto cuando los pesos son para un promedio móvil exponencial! Resulta que la forma ingenua de calcular la varianza en realidad la sobreestima en un factor constante de 2, además de la pequeña corrección (1-1 / n) que se muestra de manera análoga al cálculo del promedio móvil simple. ¡Ese es un caso especial particularmente loco!
Saolof

Respuestas:

10

Revisé las matemáticas y terminé con la variante C:

donde ¯ V es la estimación de la varianza no corregida. La fórmula está de acuerdo con el caso no ponderado cuando todosωison idénticos. Detallo la prueba a continuación:

Var(X)=(iωi)2(iωi)2iωi2V¯
V¯ωi

Configuración de , tenemosλi=ωiiωi

V¯=iλi(xijλjxj)2

La expansión del término interno da:

(xijλjxj)2=xi2+j,kλjλkxjxk2jλjxixj

Si tomamos la expectativa, tenemos que , el término E [ X ] está presente en cada término, se cancela y obtenemos:E[xixj]=Var(X)1i=j+E[X]2E[X]

que es E [ ¯ V ] = V a r ( X ) ( 1 - j λ 2 j ) Queda por conectar la expresión de λ i con respecto a ω

E[V¯]=Var(X)iλi(1+jλj22λi)
E[V¯]=Var(X)(1jλj2)
λi para obtener la variante C.ωi
El empeño
fuente
Esa es la variante C anterior, ¿no?
Anony-Mousse
Oups, sí, es la variante C.
ThePawn
He comprobado esta solución empíricamente y NO funciona ... La única que lo hace es la solución (A) que también he implementado en el pasado por mí mismo, pero solo funciona con pesos que son números enteros y> = 0
gaborous
2
Esta ecuación es incorrecta según Wikipedia, Matlab, R y otros que están implementando esta ecuación. El numerador aquí es cuadrado, pero NO debe ser, debe ser como el (C) propuesto por el OP. Ver en.wikipedia.org/wiki/…
gaborous
1
@rajatkhanduja No estaba hablando de la prueba sino de la ecuación derivada final (la principal en esta respuesta). Pero, de hecho, es correcto, el numerador es simplemente cuadrado porque multiplicamos por V, por lo que el numerador termina siendo no cuadrado. De todos modos, este estimador sigue siendo parcial como lo explico en mi respuesta a continuación, ya que se basa en pesos de tipo "confiabilidad".
Gaborous
7

Tanto A como C son correctos, pero cuál usará depende del tipo de pesas que use:

  • A necesita que use pesos de tipo "repetición" (enteros contando el número de ocurrencias para cada observación), y es imparcial .
  • C necesita que utilice pesos de tipo "confiabilidad" ( pesos normalizados o variaciones para cada observación), y está sesgado . No puede ser imparcial.

La razón por la cual C está necesariamente sesgada es porque si no usa pesos de tipo "repetición", pierde la capacidad de contar el número total de observaciones (tamaño de muestra), y por lo tanto no puede usar un factor de corrección.

Para obtener más información, consulte el artículo de Wikipedia que se actualizó recientemente: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

gaborous
fuente