Estoy buscando diseñar un sistema que, dado un párrafo de texto, pueda clasificarlo e identificar el contexto:
- Está entrenado con párrafos de texto generados por el usuario (como comentarios / preguntas / respuestas)
- Se etiquetará cada elemento del conjunto de entrenamiento. Entonces, por ejemplo, ("categoría 1", "párrafo de texto")
- Habrá cientos de categorías.
¿Cuál sería el mejor enfoque para construir dicho sistema? He estado buscando algunas opciones diferentes y la siguiente es una lista de posibles soluciones. ¿Es Word2Vec / NN la mejor solución en este momento?
- Red tensorial neuronal recursiva alimentada con datos promediados de Word2Vec
- RNTN y el vector de párrafo ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- TF-IDF utilizado en una red de creencias profundas
- TF-IDF y regresión logística
- Bolsa de palabras y clasificación ingenua de Bayes
Respuestas:
1) Max-Entropy (Regresión logística) en vectores TFIDF es un buen punto de partida para muchas tareas de clasificación de PNL.
2) Word2vec es definitivamente algo que vale la pena probar y comparar con el modelo 1. Sugeriría usar el sabor Doc2Vec para mirar oraciones / párrafos.
Quoc Le y Tomas Mikolov. Representaciones distribuidas de oraciones y documentos. http://arxiv.org/pdf/1405.4053v2.pdf
Gensim (python) tiene un bonito modelo Doc2vec.
fuente