Estoy calculando la covarianza de una distribución en paralelo y necesito combinar los resultados distribuidos en gaussiano singular. ¿Cómo combino los dos?
La interpolación lineal entre los dos casi funciona, si están distribuidos y dimensionados de manera similar.
Wikipedia proporciona una forumla en la parte inferior para la combinación, pero no parece correcta; dos distribuciones idénticamente distribuidas deben tener la misma covarianza, pero la fórmula en la parte inferior de la página duplica la covarianza.
¿Hay alguna manera de combinar dos matrices?
covariance
moments
Matt Kemp
fuente
fuente
Respuestas:
Esta pregunta surge mucho en varias formas. Lo que es común para ellos es
La aplicación más simple se refiere a datos que se han dividido en dos grupos. Conoces los tamaños de grupo y los medios del grupo. Solo en términos de estas cuatro cantidades, ¿cuál es la media general de los datos?
Otras aplicaciones generalizan desde medias hasta variaciones, desviaciones estándar, matrices de covarianza, sesgos y estadísticas multivariadas; y podría involucrar múltiples subgrupos de datos. Observe que muchas de estas cantidades son combinaciones de momentos algo complicadas: la desviación estándar, por ejemplo, es la raíz cuadrada de una combinación cuadrática del primer y segundo momento (media y media cuadrática).
Todos estos casos se manejan fácilmente reduciendo los diversos momentos a sumas, porque las sumas se combinan de manera obvia y fácil: se agregan. Matemáticamente, todo se reduce a esto: tiene un lote de datosque se han separado en grupos disjuntos de tamaños:. Llamemos alésimo grupo. Por definición, elésimo momento de cualquier lote de datoses el promedio deX=(x1,x2,…,xn) j1,j2,…,jg i(x1,x2,…,xj1;xj1+1,…,xj1+j2;xj1+j2+1,…;…;…,xn) i X(i)=(xji+1,xji+2,…,xji+1) k y1,…,yj k th poderes,
Obviamente es la suma de las ésimas potencias. Por lo tanto, refiriéndonos a nuestra descomposición previa de datos en subgrupos, podemos dividir una suma de potencias en grupos de sumas, obteniendojμk(y) k g n
Dividiendo por exhibe el ésimo momento de todo el lote en términos de la ésimo momentos de sus subgrupos.n k k
En la presente solicitud, las entradas en la matriz de covarianza son, por supuesto, covarianzas, que se pueden expresar en términos de segundos momentos y primeros momentos multivariados. La parte clave del cálculo se reduce a esto: en cada paso se habrá centrado en dos componentes particulares de sus datos multivariados; vamos a llamarlos e . Los números que está viendo están en el formulariox y
dividido como antes en grupos . Para cada grupo conoce la suma promedio de productos de : este es el momento multivariado , . Para combinar estos valores de grupo, los multiplicará por los tamaños de grupo, sumará esos resultados y dividirá el total entre .g xiyi (1,1) μ(1,1) n
Para aplicar este enfoque, debe pensar en el futuro : no es posible combinar, por ejemplo, covarianzas si solo conoce las covarianzas y los tamaños de los subgrupos: también necesita conocer los medios de los subgrupos (porque los medios están involucrados de una manera esencial en todas las fórmulas de covarianza), o algo algebraicamente reducible a las medias. También es posible que tenga que tener cuidado con las constantes que aparecen en las fórmulas; La trampa principal para los incautos es confundir una "covarianza de muestra" (que implica una suma de productos dividida por ) con una "covarianza de población" (donde la división es por ). Esto no introduce nada nuevo; solo debe recordar multiplicar la covarianza de la muestra por (o covarianza de grupo porn−1 n n−1 ji−1 ) para recuperar la suma, en lugar de por (o ).n ji
Oh, sí: sobre la presente pregunta. La fórmula dada en el artículo de Wikipedia se da en términos de medios grupales (primeros momentos) y las sumas grupales de productos. Como describí anteriormente, estos se combinarán agregándolos y luego ajustando los resultados con una división para obtener las covarianzas. La división final por no se muestra.n
fuente