Pero no sé cuál es la diferencia entre la clasificación de texto y los modelos de temas en los documentos.
Text Classification
es una forma de aprendizaje supervisado, por lo tanto, el conjunto de clases posibles se conoce / define de antemano y no cambiará.
Topic Modeling
es una forma de aprendizaje no supervisado (similar a la agrupación), por lo que el conjunto de posibles temas son desconocidos a priori . Se definen como parte de la generación de los modelos de temas. Con un algoritmo no determinista como LDA, obtendrá diferentes temas cada vez que ejecute el algoritmo.
Text classification
a menudo implica clases mutuamente excluyentes; piense en ellas como cubos.
Pero no tiene por qué: dado el tipo correcto de datos de entrada etiquetados, puede establecer una serie de clasificadores binarios no mutuamente excluyentes.
Topic modeling
generalmente no es mutuamente excluyente: el mismo documento puede tener su distribución de probabilidad distribuida en muchos temas. Además, también hay métodos de modelado de temas jerárquicos.
¿También puedo usar el modelo de tema para los documentos para identificar un tema más adelante? ¿Puedo usar la clasificación para clasificar el texto dentro de estos documentos?
Si está preguntando si puede tomar todos los documentos asignados a un tema por un algoritmo de modelado de temas y luego aplicar un clasificador a esa colección, entonces sí, ciertamente puede hacerlo.
Sin embargo, no estoy seguro de que tenga mucho sentido: como mínimo, deberá elegir un umbral para la distribución de probabilidad de tema por encima del cual incluirá documentos en su colección (generalmente 0.05-0.1).
¿Puedes dar más detalles sobre tu caso de uso?
Por cierto, hay un gran tutorial sobre modelado de temas usando la biblioteca MALLET para Java disponible aquí: Introducción al modelado de temas y MALLET
Charlie Greenbacker
fuente