Para la varianza no ponderada
Estoy investigando la media ponderada y la varianza, y me pregunto cuál es la corrección de sesgo adecuada para la varianza ponderada. Utilizando:
La varianza "ingenua" no corregida que estoy usando es esta:
Así que me pregunto si la forma correcta de corregir el sesgo es
A)
o B)
o C)
A) no tiene sentido para mí cuando los pesos son pequeños. El valor de normalización podría ser 0 o incluso negativo. Pero, ¿qué hay de B) ( es el número de observaciones), ¿es este el enfoque correcto? ¿Tienes alguna referencia que muestre esto? Creo "Actualización de las estimaciones de media y varianza: un método mejorado", DHD West, 1979 utiliza esto. El tercero, C) es mi interpretación de la respuesta a esta pregunta: /mathpro/22203/unditional-estimate-of-the-variance-of-an-unnormalised-weighted-mean
Para C) me acabo de dar cuenta de que el denominador se parece mucho a . ¿Hay alguna conexión general aquí? Creo que no se alinea por completo; y obviamente existe la conexión de que estamos tratando de calcular la varianza ...
Los tres parecen "sobrevivir" al control de la cordura de configurar todos . Entonces, ¿cuál debo usar, bajo qué premisas? '' Actualización: '' Whuber sugirió hacer también la verificación de cordura con y todos los restantes tiny. Esto parece descartar A y B.
Respuestas:
Revisé las matemáticas y terminé con la variante C:
donde ¯ V es la estimación de la varianza no corregida. La fórmula está de acuerdo con el caso no ponderado cuando todosωison idénticos. Detallo la prueba a continuación:
Configuración de , tenemosλi=ωi∑iωi
La expansión del término interno da:
Si tomamos la expectativa, tenemos que , el término E [ X ] está presente en cada término, se cancela y obtenemos:E[xixj]=Var(X)1i=j+E[X]2 E[X]
que es E [ ¯ V ] = V a r ( X ) ( 1 - ∑ j λ 2 j ) Queda por conectar la expresión de λ i con respecto a ω
fuente
Tanto A como C son correctos, pero cuál usará depende del tipo de pesas que use:
La razón por la cual C está necesariamente sesgada es porque si no usa pesos de tipo "repetición", pierde la capacidad de contar el número total de observaciones (tamaño de muestra), y por lo tanto no puede usar un factor de corrección.
Para obtener más información, consulte el artículo de Wikipedia que se actualizó recientemente: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance
fuente