¿Alguien puede explicar cuál es la interpretación natural de los hiperparámetros LDA? ALPHA
y BETA
son parámetros de distribuciones de Dirichlet para (por documento) tema y (por tema) distribuciones de palabras respectivamente. Sin embargo, ¿alguien puede explicar lo que significa elegir valores más grandes de estos hiperparámetros frente a valores más pequeños? ¿Eso significa poner alguna creencia previa en términos de escasez de temas en los documentos y exclusividad mutua de los temas en términos de palabras?
Esta pregunta es sobre la asignación de Dirichlet latente, pero el comentario de BGReene inmediatamente a continuación se refiere al análisis discriminante lineal, que de manera confusa también se abrevia LDA.
interpretation
prior
topic-models
hyperparameter
abhinavkulkarni
fuente
fuente
Respuestas:
David Blei tiene una gran charla presentando LDA a los estudiantes de una clase de verano: http://videolectures.net/mlss09uk_blei_tm/
En el primer video , cubre ampliamente la idea básica del modelado de temas y cómo entra en juego la distribución de Dirichlet. La notación de placa se explica como si se observaran todas las variables ocultas para mostrar las dependencias. Básicamente, los temas son distribuciones sobre palabras y distribuciones de documentos sobre temas.
En el segundo video muestra el efecto de alfa con algunos gráficos de muestra. Cuanto más pequeño es alfa, más escasa es la distribución. Además, presenta algunos enfoques de inferencia.
fuente
La respuesta depende de si está asumiendo la distribución de dirichlet simétrica o asimétrica (o, más técnicamente, si la medida base es uniforme). A menos que se especifique algo más, la mayoría de las implementaciones de LDA suponen que la distribución es simétrica.
Para la distribución simétrica, un valor alfa alto significa que es probable que cada documento contenga una mezcla de la mayoría de los temas, y no un solo tema específicamente. Un valor alfa bajo pone menos restricciones en los documentos y significa que es más probable que un documento contenga una combinación de solo unos pocos, o incluso solo uno, de los temas. Del mismo modo, un valor beta alto significa que es probable que cada tema contenga una mezcla de la mayoría de las palabras, y no una palabra específicamente, mientras que un valor bajo significa que un tema puede contener una mezcla de solo unas pocas palabras.
Si, por otro lado, la distribución es asimétrica, un valor alfa alto significa que una distribución de tema específica (dependiendo de la medida base) es más probable para cada documento. Del mismo modo, los valores beta altos significan que es más probable que cada tema contenga una mezcla de palabras específica definida por la medida base.
En la práctica, un alto valor alfa hará que los documentos sean más similares en términos de qué temas contienen. Un valor beta alto conducirá de manera similar a que los temas sean más similares en términos de las palabras que contienen.
Entonces, sí, los parámetros alfa especifican creencias previas sobre la dispersión / uniformidad del tema en los documentos. Sin embargo, no estoy completamente seguro de lo que quieres decir con "exclusividad mutua de temas en términos de palabras".
En términos más generales, estos son parámetros de concentración para la distribución de dirichlet utilizada en el modelo LDA. Para obtener una comprensión intuitiva de cómo funciona esto, esta presentación contiene algunas buenas ilustraciones, así como una buena explicación de LDA en general.
fuente