¿Por qué una mezcla de dos variables normalmente distribuidas es solo bimodal si sus medias difieren en al menos dos veces la desviación estándar común?

28

Bajo mezcla de dos distribuciones normales:

https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions

"Una mezcla de dos distribuciones normales tiene cinco parámetros para estimar: las dos medias, las dos variaciones y el parámetro de mezcla. Una mezcla de dos distribuciones normales con desviaciones estándar iguales es bimodal solo si sus medias difieren al menos dos veces la desviación estándar común ".

Estoy buscando una derivación o explicación intuitiva de por qué esto es cierto. Creo que puede explicarse en forma de una prueba t de dos muestras:

μ1μ2σp

donde σp es la desviación estándar agrupada.

M Waz
fuente
1
la intuición es que, si los medios están demasiado cerca, entonces habrá demasiada superposición en la masa de las 2 densidades, por lo que no se verá la diferencia en los medios porque la diferencia simplemente quedará atrapada con la masa de los dos densidades Si las dos medias son lo suficientemente diferentes, entonces las masas de las dos densidades no se superpondrán tanto y la diferencia en las medias será perceptible. Pero me gustaría ver una prueba matemática de esto. Es una declaración interesante. Nunca lo vi antes.
mlofton
2
Más formalmente, para una mezcla 50:50 de dos distribuciones normales con la misma SD si escribe la densidad f ( x ) = 0.5 g 1 (σ, en forma completa mostrando los parámetros, usted verá que su segunda derivada cambia de signo en el punto medio entre los dos medios cuando la distancia entre los medios aumenta de menos de 2 σ a arriba. f(x)=0.5g1(x)+0.5g2(x)2σ
BruceET
1
Consulte "Criterio de Rayleigh", en.wikipedia.org/wiki/Angular_resolution#Explanation
Carl Witthoft

Respuestas:

53

Esta figura del artículo vinculado en ese artículo wiki proporciona una buena ilustración: ingrese la descripción de la imagen aquí

La prueba que proporcionan se basa en el hecho de que las distribuciones normales son cóncavas dentro de una SD de su media (la SD es el punto de inflexión del pdf normal, donde va de cóncavo a convexo). Por lo tanto, si agrega dos archivos PDF normales juntos (en proporciones iguales), siempre que sus medias difieran en menos de dos SD, la suma-pdf (es decir, la mezcla) será cóncava en la región entre las dos medias, y por lo tanto el máximo global debe estar en el punto exactamente entre las dos medias.

Referencia: Schilling, MF, Watkins, AE y Watkins, W. (2002). ¿La altura humana es bimodal? El estadístico estadounidense, 56 (3), 223–229. doi: 10.1198 / 00031300265

Ruben van Bergen
fuente
11
+1 Este es un argumento agradable y memorable.
whuber
2
La leyenda de la figura también proporciona una buena ilustración de la ligadura 'fl' rendida erróneamente en 'inflexión'
:-P
2
@Axeman: Gracias por agregar esa referencia, ya que esto explotó un poco, había planeado agregarlo yo mismo, ya que realmente solo estoy repitiendo su argumento y no quiero tomar demasiado crédito por eso.
Ruben van Bergen
14

Este es un caso en el que las imágenes pueden ser engañosas, porque este resultado es una característica especial de las mezclas normales : ¡un análogo no es válido necesariamente para otras mezclas, incluso cuando los componentes son distribuciones unimodales simétricas! Por ejemplo, una mezcla igual de dos distribuciones t de Student separadas por un poco menos del doble de su desviación estándar común será bimodal. Para una comprensión real, entonces, tenemos que hacer algunas matemáticas o apelar a las propiedades especiales de las distribuciones normales.


Elija las unidades de medida (volviendo a centrar y reescalando según sea necesario) para colocar las medias de las distribuciones de componentes en ±μ, μ0, y para hacer su unidad de varianza común. Sea p, 0<p<1, la cantidad del componente medio mayor en la mezcla. Esto nos permite expresar la densidad de la mezcla en generalidad como

2πf(x;μ,p)=pexp((xμ)22)+(1p)exp((x+μ)22).

Debido a que las densidades de ambos componentes aumentan donde x<μ y disminuyen donde x>μ, los únicos modos posibles ocurren donde μxμ. Encuéntralos diferenciando f con respecto ax y ajustándolo a cero. Borrar los coeficientes positivos que obtenemos

0=e2xμp(xμ)+(1p)(x+μ).

Realizando operaciones similares con la segunda derivada de f y reemplazando e2xμ por el valor determinado por la ecuación anterior nos dice que el signo de la segunda derivada en cualquier punto crítico es el signo de

f(x;μ,p)(1+x2μ2)xμ.

Como el denominador es negativo cuando μ<x<μ, el signo de f es el de (1μ2+x2).Está claro que cuando μ1, el signo debe ser negativo. Sin embargo, en una distribución multimodal (debido a que la densidad es continua), debe haber un antimodo entre dos modos, donde el signo no es negativo. Por lo tanto, cuando μ es menor que 1 (SD), la distribución debe ser unimodal.

Como la separación de las medias es de 2μ, la conclusión de este análisis es

Una mezcla de distribuciones normales es unimodal cuando las medias están separadas por no más del doble de la desviación estándar común.

Eso es lógicamente equivalente a la declaración en la pregunta.

whuber
fuente
12

Comentario desde arriba pegado aquí para continuidad:

"[F] formalmente, para una mezcla 50:50 de dos distribuciones normales con la misma SD σ, si escribe la densidad

f(x)=0.5g1(x)+0.5g2(x)
en forma completa mostrando el parámetros, verá que su segunda derivada cambia de signo en el punto medio entre los dos medios cuando la distancia entre los medios aumenta de debajo de 2σ a arriba ".

Comentario continuado:

σ=1.3σ,2σ,σ,

enter image description here

Código R para la figura:

par(mfrow=c(1,3))
  curve(dnorm(x, 0, 1)+dnorm(x,3,1), -3, 7, col="green3", 
    lwd=2,n=1001, ylab="PDF", main="3 SD: Dip")
  curve(dnorm(x, .5, 1)+dnorm(x,2.5,1), -4, 7, col="orange", 
    lwd=2, n=1001,ylab="PDF", main="2 SD: Flat")
  curve(dnorm(x, 1, 1)+dnorm(x,2,1), -4, 7, col="violet", 
    lwd=2, n=1001, ylab="PDF", main="1 SD: Peak")
par(mfrow=c(1,3))
BruceET
fuente
1
Todas las respuestas fueron geniales. Gracias.
mlofton
3
2/30.001.
1
0.1% fx0)
f(x0)f(x)0.001f(x0)  |xx0|0.333433,
0.0010.95832
f(x0)f(x)0.001  |xx0|0.47916.
Buenos puntos. En realidad, lo que quise decir con lenguaje abreviado 'plano' era cero segunda derivada exactamente en el punto medio.
BruceET