Corrección de sesgo en varianza ponderada

Para la varianza no ponderada

Var (X) := \frac{1}{n} \sum_{i} (x_{i} - μ)^{2}

$\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2$ existe la varianza muestral corregida por sesgo, cuando la media se estimó a partir de los mismos datos:

Var (X) := \frac{1}{n - 1} \sum_{i} (x_{i} - E [X])^{2}

$\text{Var}(X):=\frac{1}{n-1}\sum_i(x_i - E[X])^2$

Estoy investigando la media ponderada y la varianza, y me pregunto cuál es la corrección de sesgo adecuada para la varianza ponderada. Utilizando:

mean (X) := \frac{1}{\sum_{i} ω_{i}} \sum_{i} ω_{i} x_{i}

$\text{mean}(X):=\frac{1}{\sum_i \omega_i}\sum_i \omega_i x_i$

La varianza "ingenua" no corregida que estoy usando es esta:

Var (X) := \frac{1}{\sum_{i} ω_{i}} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2$

Así que me pregunto si la forma correcta de corregir el sesgo es

Var (X) := \frac{1}{\sum_{i} ω_{i} - 1} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{1}{\sum_i \omega_i - 1}\sum_i\omega_i(x_i - \text{mean}(X))^2$

o B)

Var (X) := \frac{n}{n - 1} \frac{1}{\sum_{i} ω_{i}} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{n}{n-1}\frac{1}{\sum_i \omega_i}\sum_i\omega_i(x_i - \text{mean}(X))^2$

o C)

Var (X) := \frac{\sum_{i} ω_{i}}{(\sum_{i} ω_{i})^{2} - \sum_{i} ω_{i}^{2}} \sum_{i} ω_{i} (x_{i} - mean (X))^{2}

$\text{Var}(X):=\frac{\sum_i \omega_i}{(\sum_i \omega_i)^2-\sum_i \omega_i^ 2}\sum_i\omega_i(x_i - \text{mean}(X))^2$

A) no tiene sentido para mí cuando los pesos son pequeños. El valor de normalización podría ser 0 o incluso negativo. Pero, ¿qué hay de B) ( es el número de observaciones), ¿es este el enfoque correcto? ¿Tienes alguna referencia que muestre esto? Creo "Actualización de las estimaciones de media y varianza: un método mejorado", DHD West, 1979 utiliza esto. El tercero, C) es mi interpretación de la respuesta a esta pregunta: /mathpro/22203/unditional-estimate-of-the-variance-of-an-unnormalised-weighted-mean $n$

Para C) me acabo de dar cuenta de que el denominador se parece mucho a . ¿Hay alguna conexión general aquí? Creo que no se alinea por completo; y obviamente existe la conexión de que estamos tratando de calcular la varianza ... $\text{Var}(\Omega)$

Los tres parecen "sobrevivir" al control de la cordura de configurar todos . Entonces, ¿cuál debo usar, bajo qué premisas? '' Actualización: '' Whuber sugirió hacer también la verificación de cordura con y todos los restantes tiny. Esto parece descartar A y B. $\omega_i=1$ $\omega_1=\omega_2=.5$ $\omega_i=\epsilon$

variance unbiased-estimator weighted-mean weighted-data bias-correction Anony-Mousse
fuente

Cuando considera los casos en que los dos pesos más grandes son iguales y todo el resto se vuelve extremadamente pequeño, tanto (A) como (B) caen de la contienda (porque no están de acuerdo con los resultados conocidos para ). (C) parece ser una aproximación; Sospecho que el factor correcto es una función mucho más complicada de los pesos.

n = 2

$n=2$

whuber

@whuber ThePawn a continuación sugiere que es C. ¿Tiene inquietudes más detalladas?

Anony-Mousse

La solución (A) funciona, la he implementado en el pasado y puedo confirmar mediante pruebas empíricas que da los resultados correctos. Sin embargo, solo debe usar valores enteros para los pesos y> 0.

gaborous

¡Gracias! ¡Esto me ayudó mucho a ponerme en el camino correcto cuando los pesos son para un promedio móvil exponencial! Resulta que la forma ingenua de calcular la varianza en realidad la sobreestima en un factor constante de 2, además de la pequeña corrección (1-1 / n) que se muestra de manera análoga al cálculo del promedio móvil simple. ¡Ese es un caso especial particularmente loco!

Saolof

Respuestas:

Revisé las matemáticas y terminé con la variante C:

donde es la estimación de la varianza no corregida. La fórmula está de acuerdo con el caso no ponderado cuando todosson idénticos. Detallo la prueba a continuación:

V a r (X) = \frac{(\sum_{i} ω_{i})^{2}}{(\sum_{i} ω_{i})^{2} - \sum_{i} ω_{i}^{2}} \bar{V}

$Var(X) = \frac{(\sum_i \omega_i)^2}{(\sum_i \omega_i)^2 - \sum_i \omega_i^2}\overline V$

\bar{V}

$\overline V$

ω_{i}

$\omega_i$

Configuración de , tenemos $\lambda_i = \frac{\omega_i}{\sum_i \omega_i}$

\bar{V} = \sum_{i} λ_{i} (x_{i} - \sum_{j} λ_{j} x_{j})^{2}

$\overline V = \sum_i \lambda_i (x_i - \sum_j \lambda_j x_j)^2$

La expansión del término interno da:

(x_{i} - \sum_{j} λ_{j} x_{j})^{2} = x_{i}^{2} + \sum_{j, k} λ_{j} λ_{k} x_{j} x_{k} - 2 \sum_{j} λ_{j} x_{i} x_{j}

$(x_i - \sum_j \lambda_j x_j)^2 = x_i^2 + \sum_{j, k} \lambda_j \lambda_k x_j x_k - 2 \sum_j \lambda_j x_i x_j$

Si tomamos la expectativa, tenemos que , el término está presente en cada término, se cancela y obtenemos: $E[x_i x_j] = Var(X)1_{i = j} + E[X]^2$ $E[X]$

que es Queda por conectar la expresión de con respecto a

E [\bar{V}] = V a r (X) \sum_{i} λ_{i} (1 + \sum_{j} λ_{j}^{2} - 2 λ_{i})

$E[\overline V] = Var(X) \sum_i \lambda_i (1 + \sum_j \lambda_j^2- 2 \lambda_i )$

E [\bar{V}] = V a r (X) (1 - \sum_{j} λ_{j}^{2})

$E[\overline V] = Var(X) (1 - \sum_j \lambda_j^2)$

λ_{i}

$\lambda_i$

para obtener la variante C.

ω_{i}

$\omega_i$

El empeño
fuente

Esa es la variante C anterior, ¿no?

Anony-Mousse

Oups, sí, es la variante C.

ThePawn

He comprobado esta solución empíricamente y NO funciona ... La única que lo hace es la solución (A) que también he implementado en el pasado por mí mismo, pero solo funciona con pesos que son números enteros y> = 0

gaborous

Esta ecuación es incorrecta según Wikipedia, Matlab, R y otros que están implementando esta ecuación. El numerador aquí es cuadrado, pero NO debe ser, debe ser como el (C) propuesto por el OP. Ver en.wikipedia.org/wiki/…

gaborous

@rajatkhanduja No estaba hablando de la prueba sino de la ecuación derivada final (la principal en esta respuesta). Pero, de hecho, es correcto, el numerador es simplemente cuadrado porque multiplicamos por V, por lo que el numerador termina siendo no cuadrado. De todos modos, este estimador sigue siendo parcial como lo explico en mi respuesta a continuación, ya que se basa en pesos de tipo "confiabilidad".

Gaborous

Tanto A como C son correctos, pero cuál usará depende del tipo de pesas que use:

A necesita que use pesos de tipo "repetición" (enteros contando el número de ocurrencias para cada observación), y es imparcial .
C necesita que utilice pesos de tipo "confiabilidad" ( pesos normalizados o variaciones para cada observación), y está sesgado . No puede ser imparcial.

La razón por la cual C está necesariamente sesgada es porque si no usa pesos de tipo "repetición", pierde la capacidad de contar el número total de observaciones (tamaño de muestra), y por lo tanto no puede usar un factor de corrección.

Para obtener más información, consulte el artículo de Wikipedia que se actualizó recientemente: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

gaborous
fuente