Para experimentar, nos gustaría usar el Emoji incorporado en muchos Tweets como datos de verdad / entrenamiento básicos para un simple análisis cuantitativo de opiniones. Los tweets generalmente no están estructurados para que la PNL funcione bien.
De todos modos, hay 722 Emoji en Unicode 6.0, y probablemente se agregarán otros 250 en Unicode 7.0.
¿Existe una base de datos (como, por ejemplo, SentiWordNet) que contenga anotaciones de opinión para ellos?
(Tenga en cuenta que SentiWordNet también permite significados ambiguos . Considere, por ejemplo , gracioso , lo que no solo es positivo: "esto sabe gracioso" probablemente no sea positivo ... lo mismo ocurrirá, ;-)
por ejemplo. Pero no creo que esto sea más difícil para Emoji que para palabras comunes ...)
Además, si tiene experiencia con su uso para el análisis de sentimientos, me interesaría saberlo.
fuente
Respuestas:
Un total de 972 emoji no es realmente tan grande para no poder etiquetarlos manualmente, pero dudo que funcionen como una buena verdad básica. Fuentes como Twitter están llenas de ironía, sarcasmo y otras configuraciones difíciles donde los símbolos emocionales (como emoji o emoticon) significan algo diferente de la interpretación normal. Por ejemplo, alguien puede escribir "xxx engañó a sus clientes, ¡y ahora se engañan a sí mismos! Ja ja ja!: D". Este es definitivamente un comentario negativo, pero el autor se alegra de ver a la compañía xxx en problemas y, por lo tanto, agrega un emoticón positivo. Estos casos no son tan frecuentes, pero definitivamente no son adecuados para la verdad básica.
Un enfoque mucho más común es utilizar el emoticón como semilla para recopilar un conjunto de datos real . Por ejemplo, en este artículo, los autores usan emoticones y etiquetas de hash emocionales para obtener un léxico de palabras útiles para una clasificación adicional.
fuente
Encontré este repositorio de Github útil (un buen comienzo): https://github.com/wooorm/emoji-emotion Lista de emoji clasificados para valencia con un número entero entre menos cinco (negativo) y más cinco (positivo).
Consulte la lista de emojis unicode compatibles: https://github.com/wooorm/emoji-emotion/blob/master/Support.md
fuente