¿Encontrar el número de gaussianos en una mezcla finita con el teorema de Wilks?

11

Suponga que tengo un conjunto de observaciones univariadas independientes, distribuidas idénticamente dos hipótesis sobre cómo se generó :xx

H0 : x se extrae de una distribución gaussiana única con media y varianza desconocidas.

HA : x se extrae de una mezcla de dos gaussianos con media, varianza y coeficiente de mezcla desconocidos.

Si entiendo correctamente, estos son modelos anidados ya que el modelo que representa H0 se puede describir en términos de HA si restringe los parámetros de los dos gaussianos para que sean idénticos o el coeficiente de mezcla sea cero para uno de los dos gaussianos.

Por lo tanto, parece que debería poder usar el algoritmo EM para estimar los parámetros de HA y luego usar el Teorema de Wilks para determinar si la probabilidad de los datos bajo HA es significativamente mayor que la de H0 . Hay un pequeño salto de fe en el supuesto de que el algoritmo EM convergerá a la máxima probabilidad aquí, pero es uno que estoy dispuesto a hacer.

Intenté esto en una simulación de Monte Carlo, suponiendo que HA tiene 3 grados más de libertad que H0 (la media y la varianza para el segundo parámetro gaussiano y de mezcla). Cuando simulé datos de H0 , obtuve una distribución de valor P que era sustancialmente no uniforme y enriquecida para valores P pequeños. (Si EM no convergiera con la probabilidad máxima real, se esperaría exactamente lo contrario). ¿Qué tiene de malo mi aplicación del teorema de Wilks que está creando este sesgo?

dsimcha
fuente

Respuestas:

8

Con una especificación cuidadosa de cómo está contenida la hipótesis nula en el modelo de mezcla de dos componentes, es posible ver cuál podría ser el problema. Si los cinco parámetros en el modelo de mezcla son , entonces porque los dos componentes normales de la mezcla son iguales, en cuyo caso la proporción de la mezcla es irrelevante, o la proporción de la mezcla es 0 o 1, en cuyo caso uno de los componentes de la mezcla es irrelevante. La conclusión es que la hipótesis nula no puede especificarse, ni siquiera localmente, como una simple restricción de parámetros que reduce la dimensión del espacio de parámetros de 5 a 2.μ1,μ2,σ1,σ2,ρ

H0:(μ1=μ2 and σ1=σ2) or ρ{0,1}.
ρρ

La hipótesis nula es un subconjunto complicado del espacio de parámetros completo, y bajo el nulo los parámetros ni siquiera son identificables. Los supuestos habituales necesarios para obtener el teorema de Wilk se desglosan, especialmente no es posible construir una expansión adecuada de Taylor de la probabilidad logarítmica.

No tengo ninguna experiencia personal con este problema en particular, pero sé de otros casos en los que los parámetros "desaparecen" bajo el valor nulo, que parece ser el caso aquí también, y en estos casos las conclusiones del teorema de Wilk también se desmoronan. . Una búsqueda rápida proporcionó, entre otras cosas, este documento que parece relevante, y donde podría encontrar más referencias sobre el uso de la prueba de razón de probabilidad en relación con los modelos de mezcla.

NRH
fuente
Gracias. Pensé que algo como esto podría ser el problema, pero no estaba seguro. Estaba un poco confundido acerca de los puntos más finos de lo que constituye un modelo anidado para el Teorema de Wilks. Buen punto sobre la identificabilidad bajo nulo.
dsimcha
4

La inferencia sobre el número de componentes de mezcla no satisface las condiciones de regularidad necesarias para el teorema de Wilks ya que (a) el parámetroρestá en el límite del espacio de parámetros y (b) la parametrización no es identificable bajo nulo. ¡Esto no quiere decir que la distribución de la razón de probabilidad generalizada sea desconocida! Si los 5 parámetros de su configuración son desconocidos y, lo que es más importante, ilimitados, la distribución de la estadística LR no converge. Si todos los parámetros no identificables están delimitados, entonces el estadístico LR es monótono en el supremum de un proceso gaussiano truncado. La covarianza de los cuales no es fácil de calcular en el caso general (5 parámetros), e incluso cuando la tiene, la distribución del supremum de dicho proceso no se aproxima fácilmente. Para algunos resultados prácticos con respecto a la mezcla de dos componentes, vea aquí. Curiosamente, el documento muestra que en configuraciones bastante simples, la estadística LR es en realidad menos poderosa que algunas estadísticas más simples. Para el artículo seminal sobre derivar la distribución asintótica en tales problemas, ver aquí . Para todos los propósitos prácticos, puede ajustar la mezcla usando un EM y luego Bootstrap la distribución de la estadística LR. Esto puede llevar algo de tiempo, ya que se sabe que el EM es lento y necesita muchas réplicas para capturar el efecto del tamaño de la muestra. Ver aquí para más detalles.

JohnRos
fuente