Qué algoritmos de clasificación probar para clasificar datos de texto en 300 categorías

Tengo 40000 filas de datos de texto del dominio de atención médica. Los datos tienen una columna para el texto (2-5 oraciones) y una columna para su categoría. Quiero clasificar eso en 300 categorías. Algunas categorías son independientes, mientras que otras están algo relacionadas. La distribución de datos entre categorías tampoco es uniforme, es decir, algunas de las categorías (alrededor de 40 de ellas) tienen menos datos sobre 2-3 filas.

Estoy adjuntando la probabilidad de registro de cada clase / categorías. (O distribución de clases) aquí. Clase de logaritmo de probabilidades anterior (distribución de datos de clase logarítmica)

machine-learning classification nlp text-mining Alok Nayak
fuente

Necesitas más información. ¿Cuál es la relación entre las categorías? ¿Son las categorías mutuamente excluyentes? ¿Hay superposición categórica?

Ryan J. Smith

¡Bienvenido a Data Science! Actualmente su pregunta es de muy baja calidad. No puede esperar respuestas de calidad sin hacer preguntas bien descritas. Proporcione más información (mejor descripción de los datos, de sus antecedentes, lenguajes de programación, enfoques investigados, etc.).

Wojciech Walczak

Respuestas:

En general, un punto de partida decente para problemas como estos es la clasificación Naive Bayes (NB) utilizando un modelo simple de bolsa de palabras. Aquí hay algunas diapositivas que describen NB como se aplica al procesamiento del lenguaje natural . No hay nada especialmente elegante en este enfoque, pero es bastante fácil de implementar y le dará un punto de partida para expandirse.

Una vez que haya encontrado algunos resultados iniciales asumiendo independencia entre sus características y sus etiquetas de salida, probablemente tendrá una mejor idea de dónde es débil el modelo. A partir de ese momento, puede aplicar algunas funciones de ingeniería (tal vez TF-IDF ), así como algunos procesos posteriores para tratar las muestras que se asignan a categorías relacionadas.

Ryan J. Smith
fuente

Agradezco su respuesta y las referencias aquí, incluso si la pregunta es vaga. Es realmente útil para mí y probablemente para muchas más personas que también se están mojando los pies. ¡Gracias! :)

Brian Topping

Gracias, he comenzado a trabajar con ingenuos bayes e ingeniería de características en general. ¿Alguna otra cosa aparte de las ingenuas bayes que debería probar?

Alok Nayak

Bueno, todavía no ha ofrecido muchos detalles sobre los datos en sí o los detalles de lo que ha hecho, por lo que es muy difícil darle sugerencias específicas. Lo mejor que puedo decir es considerar incorporar alguna estructura secuencial en su modelo y características, ya sea mediante el uso de bigrams o modelos de markov / máquinas de estados finitos.

Ryan J. Smith