He usado LDA en un corpus de documentos y encontré algunos temas. La salida de mi código es dos matrices que contienen probabilidades; probabilidades de un tema de documento y las otras probabilidades de tema de palabras. Pero en realidad no sé cómo usar estos resultados para predecir el tema de un nuevo documento. Estoy usando el muestreo de Gibbs. ¿Alguien sabe cómo? Gracias
text-mining
topic-models
Hossein
fuente
fuente
Respuestas:
Intentaría 'doblar'. Esto se refiere a tomar un nuevo documento, agregarlo al corpus y luego ejecutar el muestreo de Gibbs solo en las palabras de ese nuevo documento , manteniendo las asignaciones de temas de los documentos antiguos iguales. Esto generalmente converge rápido (tal vez 5-10-20 iteraciones), y no necesita muestrear su antiguo corpus, por lo que también funciona rápido. Al final, tendrá la asignación de temas para cada palabra en el nuevo documento. Esto le dará la distribución de temas en ese documento.
En su muestra de Gibbs, probablemente tenga algo similar al siguiente código:
El plegado es el mismo, excepto que comienza con las matrices existentes, les agrega los tokens del nuevo documento y realiza el muestreo solo para los nuevos tokens. Es decir:
fuente