Clasificación de conversaciones en función del contenido.

8

Me gustaría poder diseñar un clasificador que pueda distinguir entre diferentes tipos de conversaciones (no necesariamente decir nada sobre el estado de ánimo, la sinceridad o el resultado, eso es demasiado descabellado).

Para saber, por ejemplo, que entre 50 muestras de conversaciones, 10 involucran a ambas partes que buscan información sobre un evento futuro, 30 parecen no tener un objetivo y 10 involucran a una parte que busca información de otra sobre un evento pasado (realmente el algoritmo clasificaría estos como los tipos I, II o III sin tener en cuenta las circunstancias reales).

En otras palabras, el orden de los hablantes importaría junto con el contenido, tal vez ayudado al sembrar el algoritmo con ciertas palabras clave.

¿Existe un sistema de clasificación que pueda realizar esta tarea con un grado bastante alto de precisión?

jonsca
fuente
1
para aclarar, ¿son estos datos de texto o datos de audio?
tdc
1
@tdc Datos de texto, lo siento
jonsca

Respuestas:

4

Así es como lo abordaría. En realidad, debe verificar si un texto está en la clase I o III (de lo contrario, sería la clase II).

  • Primero, defina una bolsa de palabras para las clases I y III. Puedes hacer esto manualmente
  • Para cada texto, calcule el tf-idf para las palabras en estas dos clases y sume (obtenga dos sumas).
  • Si alguna de estas dos sumas está por encima de un umbral predefinido, entonces pertenece a esa clase.

Si tiene un conjunto de datos de aprendizaje lo suficientemente grande, puede averiguar fácilmente cuáles son las dos bolsas de palabras, así como los dos umbrales para ellas.

vonPetrushev
fuente
Iba a ver tf-idf después de leer su pregunta. Suena prometedor.
jonsca