Modelos de tema para documentos cortos

14

Inspirado por esta pregunta , me pregunto si se ha realizado algún trabajo sobre modelos de temas para grandes colecciones de textos extremadamente cortos. Mi intuición es que Twitter debería ser una inspiración natural para tales modelos. Sin embargo, a partir de una experimentación limitada, parece que los modelos de tema estándar (LDA, etc.) funcionan bastante mal en este tipo de datos.

¿Alguien por ahí sabe de algún trabajo que se haya realizado en esta área? Este artículo habla sobre la aplicación de LDA a Twitter, pero estoy realmente interesado en saber si hay otros algoritmos que funcionen mejor en el contexto de documentos cortos.

Martin O'Leary
fuente
2
Twitter es un conjunto de datos particularmente difícil para el modelado de temas no solo por el pequeño tamaño de los 'documentos', sino también por el tipo de texto. Las personas tienden a usar varios mensajes cortos de mensajes de texto, lo que dificulta aún más la identificación de coincidencias.
Nick
Vea la lista de buenos documentos y los códigos fuente correspondientes para el modelado de temas en Tweets en: quora.com/…
NQD

Respuestas:

7

Esta es una respuesta tardía, pero puede ser útil para otras personas que buscan investigaciones y herramientas relacionadas para este problema:

  1. Weiwei Guo de Columbia implementó el código para el modelado de temas de texto corto. Describió la implementación en el documento "Modelando oraciones en el espacio latente" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) y el código está disponible aquí: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Aunque esto no es modelado de temas, si tiene una tarea de clasificación que involucra fragmentos cortos de texto, puede usar LibShortText. De la descripción de su sitio web

"LibShortText es una herramienta de código abierto para la clasificación y el análisis de textos cortos. Puede manejar la clasificación de, por ejemplo, títulos, preguntas, oraciones y mensajes cortos ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

DPS
fuente
6

Si bien no estoy muy familiarizado con su trabajo, sé que Jacob Eisenstein ha trabajado en análisis de texto y modelos gráficos en datos de Twitter. En particular, este documento describe una aplicación de modelado de temas en datos de Twitter y microblogs.

Editar: en realidad, después de leer el periódico un poco más, dicen:

Sin embargo, el mensaje promedio en Twitter es de solo dieciséis tokens de palabras, lo cual es demasiado escaso para el modelado tradicional de temas; en su lugar, reunimos todos los mensajes de un usuario determinado en un solo documento.

Entonces, tal vez ese mismo documento puede no ser de mucha ayuda, aún quizás otras publicaciones de Eisenstein puedan guiarlo en la dirección correcta.

Junier
fuente
6

Un artículo reciente llamado " un modelo de tema biterm para texto corto " (WWW13) ha avanzado un poco en este tema, y ​​aquí está su código

Xiaohui Yan
fuente
2
Confirmo que BiTerm LDA funcionó bastante bien para el modelado de temas de expresiones cortas de texto (3-8 palabras) y la clasificación posterior.
Vladislavs Dovgalecs