Tengo 40000 filas de datos de texto del dominio de atención médica. Los datos tienen una columna para el texto (2-5 oraciones) y una columna para su categoría. Quiero clasificar eso en 300 categorías. Algunas categorías son independientes, mientras que otras están algo relacionadas. La distribución de datos entre categorías tampoco es uniforme, es decir, algunas de las categorías (alrededor de 40 de ellas) tienen menos datos sobre 2-3 filas.
Estoy adjuntando la probabilidad de registro de cada clase / categorías. (O distribución de clases) aquí.
machine-learning
classification
nlp
text-mining
Alok Nayak
fuente
fuente
Respuestas:
En general, un punto de partida decente para problemas como estos es la clasificación Naive Bayes (NB) utilizando un modelo simple de bolsa de palabras. Aquí hay algunas diapositivas que describen NB como se aplica al procesamiento del lenguaje natural . No hay nada especialmente elegante en este enfoque, pero es bastante fácil de implementar y le dará un punto de partida para expandirse.
Una vez que haya encontrado algunos resultados iniciales asumiendo independencia entre sus características y sus etiquetas de salida, probablemente tendrá una mejor idea de dónde es débil el modelo. A partir de ese momento, puede aplicar algunas funciones de ingeniería (tal vez TF-IDF ), así como algunos procesos posteriores para tratar las muestras que se asignan a categorías relacionadas.
fuente