Estoy buscando la ecuación correcta para calcular la covarianza muestral imparcial ponderada. Las fuentes de Internet son bastante raras en este tema y todas usan ecuaciones diferentes.
La ecuación más probable que he encontrado es esta:
De: https://en.wikipedia.org/wiki/Sample_mean_and_sample_covariance#Weighted_samples
Por supuesto, debe calcular de antemano la media muestral ponderada (imparcial).
Sin embargo, he encontrado varias otras fórmulas como:
O incluso he visto algunos códigos fuente y documentos académicos simplemente usando la fórmula de covarianza estándar pero con la media muestral ponderada en lugar de la media muestral ...
¿Alguien puede ayudarme y arrojar algo de luz?
/ EDITAR: mis pesos son simplemente el número de observaciones para una muestra en el conjunto de datos, por lo tanto weights.sum () = n
fuente
Respuestas:
Encontré la solución en un libro de 1972 (George R. Price, Ann. Hum. Genet., Lond, pp485-490, Extension of covariance selection matemáticas, 1972) .
Covarianza de muestra ponderada sesgada:
Y la covarianza muestral ponderada imparcial dada al aplicar la corrección de Bessel:
Dóndeμ∗ es la media muestral ponderada (imparcial):
Nota importante: esto funciona solo si los pesos son pesos de tipo "repetición", lo que significa que cada peso representa el número de ocurrencias de una observación, y que∑nortei = 1wyo=norte∗ dónde norte∗ representan el tamaño real de la muestra (número total real de muestras, que representan los pesos).
He actualizado el artículo en Wikipedia, donde también encontrará la ecuación para la varianza muestral ponderada imparcial:
https://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_covariance
Nota práctica: le aconsejo que primero multiplique columna por columnawyo y (Xyo-μ∗) y luego hacer una matriz de multiplicación con (Xyo-μ∗) para concluir y realizar automáticamente la sumatoria. Por ejemplo, en Python Pandas / código Numpy:
Hice algunas comprobaciones de cordura utilizando un conjunto de datos no ponderado y un conjunto de datos ponderado equivalente, y funciona correctamente.
fuente