Suponga que tengo un conjunto de observaciones univariadas independientes, distribuidas idénticamente dos hipótesis sobre cómo se generó :
: se extrae de una distribución gaussiana única con media y varianza desconocidas.
: se extrae de una mezcla de dos gaussianos con media, varianza y coeficiente de mezcla desconocidos.
Si entiendo correctamente, estos son modelos anidados ya que el modelo que representa se puede describir en términos de si restringe los parámetros de los dos gaussianos para que sean idénticos o el coeficiente de mezcla sea cero para uno de los dos gaussianos.
Por lo tanto, parece que debería poder usar el algoritmo EM para estimar los parámetros de y luego usar el Teorema de Wilks para determinar si la probabilidad de los datos bajo es significativamente mayor que la de . Hay un pequeño salto de fe en el supuesto de que el algoritmo EM convergerá a la máxima probabilidad aquí, pero es uno que estoy dispuesto a hacer.
Intenté esto en una simulación de Monte Carlo, suponiendo que tiene 3 grados más de libertad que (la media y la varianza para el segundo parámetro gaussiano y de mezcla). Cuando simulé datos de , obtuve una distribución de valor P que era sustancialmente no uniforme y enriquecida para valores P pequeños. (Si EM no convergiera con la probabilidad máxima real, se esperaría exactamente lo contrario). ¿Qué tiene de malo mi aplicación del teorema de Wilks que está creando este sesgo?
La inferencia sobre el número de componentes de mezcla no satisface las condiciones de regularidad necesarias para el teorema de Wilks ya que (a) el parámetroρ está en el límite del espacio de parámetros y (b) la parametrización no es identificable bajo nulo. ¡Esto no quiere decir que la distribución de la razón de probabilidad generalizada sea desconocida! Si los 5 parámetros de su configuración son desconocidos y, lo que es más importante, ilimitados, la distribución de la estadística LR no converge. Si todos los parámetros no identificables están delimitados, entonces el estadístico LR es monótono en el supremum de un proceso gaussiano truncado. La covarianza de los cuales no es fácil de calcular en el caso general (5 parámetros), e incluso cuando la tiene, la distribución del supremum de dicho proceso no se aproxima fácilmente. Para algunos resultados prácticos con respecto a la mezcla de dos componentes, vea aquí. Curiosamente, el documento muestra que en configuraciones bastante simples, la estadística LR es en realidad menos poderosa que algunas estadísticas más simples. Para el artículo seminal sobre derivar la distribución asintótica en tales problemas, ver aquí . Para todos los propósitos prácticos, puede ajustar la mezcla usando un EM y luego Bootstrap la distribución de la estadística LR. Esto puede llevar algo de tiempo, ya que se sabe que el EM es lento y necesita muchas réplicas para capturar el efecto del tamaño de la muestra. Ver aquí para más detalles.
fuente