Inspirado por esta pregunta , me pregunto si se ha realizado algún trabajo sobre modelos de temas para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de una experimentación limitada, parece que los modelos de tema estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.
¿Alguien por ahí sabe de algún trabajo que se haya realizado en esta área? Este artículo habla sobre la aplicación de LDA a Twitter, pero estoy realmente interesado en saber si hay otros algoritmos que funcionen mejor en el contexto de documentos cortos.
references
text-mining
topic-models
natural-language
Martin O'Leary
fuente
fuente
Respuestas:
Esta es una respuesta tardía, pero puede ser útil para otras personas que buscan investigaciones y herramientas relacionadas para este problema:
Weiwei Guo de Columbia implementó el código para el modelado de temas de texto corto. Describió la implementación en el documento "Modelando oraciones en el espacio latente" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) y el código está disponible aquí: http: // www .cs.columbia.edu / ~ weiwei / code.html
Aunque esto no es modelado de temas, si tiene una tarea de clasificación que involucra fragmentos cortos de texto, puede usar LibShortText. De la descripción de su sitio web
"LibShortText es una herramienta de código abierto para la clasificación y el análisis de textos cortos. Puede manejar la clasificación de, por ejemplo, títulos, preguntas, oraciones y mensajes cortos ..."
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
fuente
Si bien no estoy muy familiarizado con su trabajo, sé que Jacob Eisenstein ha trabajado en análisis de texto y modelos gráficos en datos de Twitter. En particular, este documento describe una aplicación de modelado de temas en datos de Twitter y microblogs.
Editar: en realidad, después de leer el periódico un poco más, dicen:
Entonces, tal vez ese mismo documento puede no ser de mucha ayuda, aún quizás otras publicaciones de Eisenstein puedan guiarlo en la dirección correcta.
fuente
Un artículo reciente llamado " un modelo de tema biterm para texto corto " (WWW13) ha avanzado un poco en este tema, y aquí está su código
fuente