Bajo mezcla de dos distribuciones normales:
https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions
"Una mezcla de dos distribuciones normales tiene cinco parámetros para estimar: las dos medias, las dos variaciones y el parámetro de mezcla. Una mezcla de dos distribuciones normales con desviaciones estándar iguales es bimodal solo si sus medias difieren al menos dos veces la desviación estándar común ".
Estoy buscando una derivación o explicación intuitiva de por qué esto es cierto. Creo que puede explicarse en forma de una prueba t de dos muestras:
donde es la desviación estándar agrupada.
Respuestas:
Esta figura del artículo vinculado en ese artículo wiki proporciona una buena ilustración:
La prueba que proporcionan se basa en el hecho de que las distribuciones normales son cóncavas dentro de una SD de su media (la SD es el punto de inflexión del pdf normal, donde va de cóncavo a convexo). Por lo tanto, si agrega dos archivos PDF normales juntos (en proporciones iguales), siempre que sus medias difieran en menos de dos SD, la suma-pdf (es decir, la mezcla) será cóncava en la región entre las dos medias, y por lo tanto el máximo global debe estar en el punto exactamente entre las dos medias.
Referencia: Schilling, MF, Watkins, AE y Watkins, W. (2002). ¿La altura humana es bimodal? El estadístico estadounidense, 56 (3), 223–229. doi: 10.1198 / 00031300265
fuente
Este es un caso en el que las imágenes pueden ser engañosas, porque este resultado es una característica especial de las mezclas normales : ¡un análogo no es válido necesariamente para otras mezclas, incluso cuando los componentes son distribuciones unimodales simétricas! Por ejemplo, una mezcla igual de dos distribuciones t de Student separadas por un poco menos del doble de su desviación estándar común será bimodal. Para una comprensión real, entonces, tenemos que hacer algunas matemáticas o apelar a las propiedades especiales de las distribuciones normales.
Elija las unidades de medida (volviendo a centrar y reescalando según sea necesario) para colocar las medias de las distribuciones de componentes en±μ, μ≥0, y para hacer su unidad de varianza común. Sea p, 0<p<1, la cantidad del componente medio mayor en la mezcla. Esto nos permite expresar la densidad de la mezcla en generalidad como
Debido a que las densidades de ambos componentes aumentan dondex<−μ y disminuyen donde x>μ, los únicos modos posibles ocurren donde −μ≤x≤μ. Encuéntralos diferenciando f con respecto ax y ajustándolo a cero. Borrar los coeficientes positivos que obtenemos
Realizando operaciones similares con la segunda derivada def y reemplazando e2xμ por el valor determinado por la ecuación anterior nos dice que el signo de la segunda derivada en cualquier punto crítico es el signo de
Como el denominador es negativo cuando−μ<x<μ, el signo de f′′ es el de −(1−μ2+x2). Está claro que cuando μ≤1, el signo debe ser negativo. Sin embargo, en una distribución multimodal (debido a que la densidad es continua), debe haber un antimodo entre dos modos, donde el signo no es negativo. Por lo tanto, cuando μ es menor que 1 (SD), la distribución debe ser unimodal.
Como la separación de las medias es de2μ, la conclusión de este análisis es
Eso es lógicamente equivalente a la declaración en la pregunta.
fuente
Comentario desde arriba pegado aquí para continuidad:
"[F] formalmente, para una mezcla 50:50 de dos distribuciones normales con la misma SD σ, si escribe la densidadf(x)=0.5g1(x)+0.5g2(x) en forma completa mostrando el parámetros, verá que su segunda derivada cambia de signo en el punto medio entre los dos medios cuando la distancia entre los medios aumenta de debajo de 2σ a arriba ".
Comentario continuado:
Código R para la figura:
fuente