Digamos que tengo dos distribuciones normales A y B con medias y y varianzas y . Quiero tomar una mezcla ponderada de estas dos distribuciones usando pesos y donde y . Sé que la media de esta mezcla sería .μ B σ A σ B p q 0 ≤ p ≤ 1 q = 1 - p μ A B = ( p × μ A ) + ( q × μ B )
¿Cuál sería la varianza?
Un ejemplo concreto sería si supiera los parámetros para la distribución de la altura masculina y femenina. Si tuviera una habitación de personas que era 60% masculina, podría producir la altura media esperada para toda la habitación, pero ¿qué pasa con la variación?
normal-distribution
mixture
JoFrhwld
fuente
fuente
Respuestas:
La varianza es el segundo momento menos el cuadrado del primer momento, por lo que es suficiente para calcular los momentos de las mezclas.
En general, dadas las distribuciones con archivos PDF y pesos constantes (no aleatorios) p i , el PDF de la mezcla esfi pi
de donde se deduce inmediatamente por cualquier momento quek
He escrito para el momento k t h de f y μ ( k ) i para el momento k t h de f i .μ(k) kth f μ(k)i kth fi
Usando estas fórmulas, la varianza se puede escribir
De manera equivalente, si las varianzas de se dan como σ 2 i , entonces μ ( 2 ) i = σ 2 i + ( μ ( 1 ) i ) 2 , permitiendo que la varianza de la mezcla f se escriba en términos de variaciones y medios de sus componentes comofi σ2i μ(2)i=σ2i+(μ(1)i)2 f
En palabras, esta es la varianza promedio (ponderada) más la media cuadrática promedio menos el cuadrado de la media promedio. Como la cuadratura es una función convexa, la desigualdad de Jensen afirma que la media cuadrática promedio no puede ser menor que el cuadrado de la media promedio. Esto nos permite entender que la fórmula indica que la varianza de la mezcla es la mezcla de las varianzas más un término no negativo que explica la dispersión (ponderada) de las medias.
En su caso, la varianza es
Podemos interpretar que esta es una mezcla ponderada de las dos varianzas, , más un término de corrección (necesariamente positivo) para dar cuenta de los cambios de las medias individuales en relación con la media general de la mezcla.pAσ2A+pBσ2B
La utilidad de esta variación en la interpretación de los datos, como la que figura en la pregunta, es dudosa, porque la distribución de la mezcla no será Normal (y puede apartarse sustancialmente de ella, en la medida en que exhiba bimodalidad).
fuente