Estoy confundido acerca de cómo calcular la perplejidad de una muestra reservada cuando se realiza la Asignación de Dirichlet Latente (LDA). Los documentos sobre el tema brillan sobre él, haciéndome pensar que me falta algo obvio ...
La perplejidad se ve como una buena medida de rendimiento para LDA. La idea es mantener una muestra reservada, entrenar su LDA en el resto de los datos y luego calcular la perplejidad de la reserva.
La perplejidad podría estar dada por la fórmula:
(Tomado de la recuperación de imágenes en bases de datos de imágenes a gran escala, Horster et al .)
Aquí es el número de documentos (en la muestra de prueba, presumiblemente), w d representa las palabras en el documento d , N d el número de palabras en el documento d .
Para mí no está claro cómo calcular con sensatez , ya que no tenemos mezclas de temas para los documentos extendidos. Idealmente, deberíamos integrarnos sobre el Dirichlet antes de todas las posibles mezclas de temas y usar los temas multinomiales que aprendimos. Sin embargo, calcular esta integral no parece una tarea fácil.
Alternativamente, podríamos intentar aprender una combinación óptima de temas para cada documento extendido (dados nuestros temas aprendidos) y usar esto para calcular la perplejidad. Esto sería factible, sin embargo, no es tan trivial como parecen sugerir documentos como Horter et al y Blei et al, y no me queda claro de inmediato que el resultado sea equivalente al caso ideal anterior.
fuente
Sabemos que los parámetros de LDA se estiman mediante inferencia variacional. Entonces
fuente