Interpretación natural para hiperparámetros LDA

21

¿Alguien puede explicar cuál es la interpretación natural de los hiperparámetros LDA? ALPHAy BETAson parámetros de distribuciones de Dirichlet para (por documento) tema y (por tema) distribuciones de palabras respectivamente. Sin embargo, ¿alguien puede explicar lo que significa elegir valores más grandes de estos hiperparámetros frente a valores más pequeños? ¿Eso significa poner alguna creencia previa en términos de escasez de temas en los documentos y exclusividad mutua de los temas en términos de palabras?

Esta pregunta es sobre la asignación de Dirichlet latente, pero el comentario de BGReene inmediatamente a continuación se refiere al análisis discriminante lineal, que de manera confusa también se abrevia LDA.

interpretation prior topic-models hyperparameter abhinavkulkarni
fuente

Creo que necesita dar más detalles sobre qué formulación de LDA está utilizando. En general, solo los modelos RDA tienen esos parámetros, LDA generalmente se define completamente por el vector medio, la matriz de covarianza y las probabilidades anteriores.

BGreene

11

David Blei tiene una gran charla presentando LDA a los estudiantes de una clase de verano: http://videolectures.net/mlss09uk_blei_tm/

En el primer video , cubre ampliamente la idea básica del modelado de temas y cómo entra en juego la distribución de Dirichlet. La notación de placa se explica como si se observaran todas las variables ocultas para mostrar las dependencias. Básicamente, los temas son distribuciones sobre palabras y distribuciones de documentos sobre temas.

En el segundo video muestra el efecto de alfa con algunos gráficos de muestra. Cuanto más pequeño es alfa, más escasa es la distribución. Además, presenta algunos enfoques de inferencia.

Karsten
fuente

77

esta no debería ser la respuesta aceptada

samsamara

Supongo que tienes razón. Olvidé por completo que escribí esto.

Karsten

¡Oh! no esperaba ver un comentario del autor! jeje :)

samsamara 01 de

48

La respuesta depende de si está asumiendo la distribución de dirichlet simétrica o asimétrica (o, más técnicamente, si la medida base es uniforme). A menos que se especifique algo más, la mayoría de las implementaciones de LDA suponen que la distribución es simétrica.

Para la distribución simétrica, un valor alfa alto significa que es probable que cada documento contenga una mezcla de la mayoría de los temas, y no un solo tema específicamente. Un valor alfa bajo pone menos restricciones en los documentos y significa que es más probable que un documento contenga una combinación de solo unos pocos, o incluso solo uno, de los temas. Del mismo modo, un valor beta alto significa que es probable que cada tema contenga una mezcla de la mayoría de las palabras, y no una palabra específicamente, mientras que un valor bajo significa que un tema puede contener una mezcla de solo unas pocas palabras.

Si, por otro lado, la distribución es asimétrica, un valor alfa alto significa que una distribución de tema específica (dependiendo de la medida base) es más probable para cada documento. Del mismo modo, los valores beta altos significan que es más probable que cada tema contenga una mezcla de palabras específica definida por la medida base.

En la práctica, un alto valor alfa hará que los documentos sean más similares en términos de qué temas contienen. Un valor beta alto conducirá de manera similar a que los temas sean más similares en términos de las palabras que contienen.

Entonces, sí, los parámetros alfa especifican creencias previas sobre la dispersión / uniformidad del tema en los documentos. Sin embargo, no estoy completamente seguro de lo que quieres decir con "exclusividad mutua de temas en términos de palabras".

En términos más generales, estos son parámetros de concentración para la distribución de dirichlet utilizada en el modelo LDA. Para obtener una comprensión intuitiva de cómo funciona esto, esta presentación contiene algunas buenas ilustraciones, así como una buena explicación de LDA en general.

$(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$

AMO
fuente

2

+1 respuesta informativa! Quiero preguntar qué tan alto / bajo es un valor alto / bajo para alfa y beta en general.

samsamara

Se supone que Beta es una distribución sobre las palabras para cada tema (una matriz), ¿verdad? Entonces, ¿cómo se traduce un solo valor en una matriz?

Noamiko el

¿Estoy en lo cierto al concluir que alfa alto significa que los documentos son similares, y beta alto significa que los temas son similares?

Lewistrick

Interpretación natural para hiperparámetros LDA

Respuestas: