Modelo de Dirichlet multinomial con distribución hiperprior en los parámetros de concentración.

10

Trataré de describir el problema en cuestión de la manera más general posible. Estoy modelando observaciones como una distribución categórica con un vector de probabilidad de parámetro theta.

Entonces, supongo que el vector de parámetros theta sigue una distribución previa de Dirichlet con los parámetros . $\alpha_1,\alpha_2,\ldots,\alpha_k$

¿Es posible también imponer una distribución hiperprior sobre los parámetros ? ¿Tendrá que ser una distribución multivariada como las distribuciones categóricas y de dirichlet? Me parece que los alfa siempre son positivos, por lo que un hiperprior gamma debería funcionar. $\alpha_1,\alpha_2,\ldots,\alpha_k$

No estoy seguro de si alguien ha intentado ajustar tales (posiblemente) modelos sobreparamizados, pero me parece razonable pensar que los alfa no deberían repararse, sino provenir de una distribución gamma.

Intente proporcionarme algunas referencias, ideas sobre cómo podría intentar ese enfoque en la práctica.

categorical-data multinomial dirichlet-distribution hierarchical-bayesian dirichlet-process Dnaiel
fuente

Sí, esto es posible y se ha hecho. En general, esto se llama modelo jerárquico bayesiano. Preferiblemente, este previo debe tener en cuenta las posibles dependencias.

@Procrastinator gracias. ¿Tiene alguna referencia para los buenos modelos jerárquicos bayesianos que se ocupan de este tipo de modelos? Gracias.

Dnaiel

@Procrastinator: ¿Has logrado obtener documentos / informes o, idealmente, documentos de solicitud práctica sobre los modelos jerárquicos bayesianos?

Zhubarb

12

No creo que este sea un modelo "sobreparamaterizado" en absoluto. Yo diría que al colocar un previo sobre los parámetros de Dirichlet, estás siendo menos comprometido con cualquier resultado en particular. En particular, como probablemente sepa, para las distribuciones simétricas de dirichlet (es decir, ), el ajuste proporciona más probabilidad previa de distribuciones multinomiales dispersas, mientras que brinda más probabilidad previa de distribuciones multinomiales suaves. $\alpha_1 = \alpha_2 = ... \alpha_K$ $\alpha<1$ $\alpha>1$

En los casos en que uno no tiene grandes expectativas de distribuciones multinomiales escasas o densas, colocar un hiperprior sobre su distribución Dirichlet le da a su modelo cierta flexibilidad adicional para elegir entre ellas.

Originalmente tuve la idea de hacer esto de este artículo . El hiperprior que usan es ligeramente diferente de lo que sugieres. Muestran un vector de probabilidad de un dirichlet y luego lo escalan mediante un sorteo de un exponencial (o gamma). Entonces el modelo es

\begin{array}{rcl} β & \sim & D i r i c h l e t (1) \\ λ & \sim & E x p o n e n t i a l (\cdot) \\ θ & \sim & D i r i c h l e t (β λ) \end{array}

$\begin{eqnarray} \beta &\sim &Dirichlet(1)\\ \lambda& \sim &Exponential(\cdot)\\ \theta& \sim &Dirichlet(\beta\lambda) \end{eqnarray}$

El Dirichlet adicional es simplemente para evitar imponer simetría.

También he visto a personas usar solo el hipergamma Gamma previo para un Dirichlet en el contexto de modelos ocultos de Markov con distribuciones de emisiones multinomiales, pero parece que no puedo encontrar una referencia. Además, parece que he encontrado publicidades similares utilizadas en los modelos de tema.

jerad
fuente

Gracias gran respuesta! Tengo un seguimiento breve Q, ¿este modelo permitirá una variabilidad diferente para cada una de las thetas? Tengo esta pregunta ya que el parámetro lambda se comparte en todas las thetas, por lo tanto, todas comparten el mismo parámetro de escala, por lo que me preguntaba en el caso de una sobredispersión que el modelo proporcionaría tanta flexibilidad. ¡Su intuición / conocimiento aquí es muy apreciada! ¡Gracias!

Dnaiel

@Dnaiel, dime si estoy malinterpretando tu pregunta, pero sí, incluso con dirichlet simétrico antes, digamos , los sorteos de esa distribución tenderán a producir vectores dispersos . Por disperso quiero decir que si trazaras el vector como un histograma, sería muy pico, en lugar de plano. En el modelo anterior, los parámetros de Dirichlet no son simétricos debido a que el parámetro se extrae de un hiperprior dirichlet.

D i r i c h l e t (0.2, 0.2, 0.2, 0.2)

$Dirichlet(0.2, 0.2, 0.2, 0.2)$

θ

$\theta$

θ

$\theta$

β

$\beta$

jerad

4

Para demostrar una solución a este problema hiperprior, implementé un modelo jerárquico gamma-Dirichlet-multinomial en PyMC3. La gamma anterior para el Dirichlet se especifica y se muestrea según la publicación de blog de Ted Dunning .

El modelo que implementé se puede encontrar en este Gist pero también se describe a continuación:

Este es un modelo bayesiano jerárquico (agrupación) para clasificaciones de películas. Cada película se puede clasificar en una escala de cero a cinco. Cada película se clasifica varias veces. Queremos encontrar una distribución uniforme de calificaciones para cada película.

A partir de los datos, aprenderemos una distribución previa de nivel superior (hiperprior) en las clasificaciones de películas. Cada película tendrá su propio previo que se suavizará con este previo de nivel superior. Otra forma de pensar en esto es que la clasificación previa para cada película se reducirá a la distribución grupal o grupal.

Si una película tiene una distribución de calificación atípica, este enfoque reducirá las calificaciones a algo más en línea con lo que se espera. Además, este conocimiento previo puede ser útil para arrancar películas con pocas clasificaciones para permitir que se comparen significativamente con películas con muchas clasificaciones.

El modelo es el siguiente:

$\gamma_{k=1...K} \sim Gamma(\alpha, \beta)$

$\theta_{m=1...M} \sim Dirichlet_M(c\gamma_1, ..., c\gamma_K)$

$z_{m=1...M,n=1...N_m} \sim Categorical_M(\theta_m)$

dónde:

$K$ Número de niveles de calificación de películas (por ejemplo, implica calificaciones 0, ..., 5) $K = 6$
$M$ número de películas clasificadas
$N_m$ número de clasificaciones para la película $m$
$\alpha = 1 / K$ para que la colección de gamma rvs actúe como un coeficiente exponencial
$\beta$ parámetro de tasa para el nivel superior exponencial anterior
$c$ parámetro de concentración que dicta la fuerza del nivel superior previo
$\gamma_k$ nivel superior anterior para el nivel de calificación $k$
$\theta_m$ nivel de película anterior para niveles de calificación (multivariante con dimensión = ) $K$
$z_{mn}$ Calificación para la película $n$ $m$

Brad B
fuente

1

Este es un conjugado bayesiano directo modelado previo. Una extensión natural del modelo Beta-Binomial. Un buen recurso para esto podría ser del libro . Y Posterior también es Dirichlet y, por lo tanto, simular a partir de dirichlet dará los resúmenes necesarios

Subbiah
fuente

1

Gracias. Estoy familiarizado con tal libro, gran referencia. Traté de investigarlo, pero no proporcionan un modelo jerárquico multinomial directamente, pero tienen toneladas de buenas ideas que se pueden aplicar.

Dnaiel

1

El dirichlet-multinomial es un modelo conjugado, pero el operador consultó acerca de un (hiper) previo sobre los parámetros del Dirichlet. No existe un conjugado estándar anterior para la distribución de Dirichlet, aunque de hecho uno debe existir , ya que es un miembro de la familia exponencial.

jerad

Modelo de Dirichlet multinomial con distribución hiperprior en los parámetros de concentración.

Respuestas: