¿Qué conjuntos de datos disponibles libremente puedo usar para entrenar un clasificador de texto?
Estamos tratando de mejorar la participación de nuestros usuarios recomendando el contenido más relacionado para él, por lo que pensamos que si clasificamos nuestro contenido en función de una bolsa de palabras predefinida, podemos recomendarle contenido atractivo al obtener sus comentarios sobre un número aleatorio de publicaciones ya clasificadas antes de.
Podemos usar esta información para recomendarle pulsos etiquetados con esas clases. Pero descubrimos que si utilizamos una bolsa de palabras predefinida que no está relacionada con nuestro contenido, el vector de características estará lleno de ceros, también las categorías pueden no ser relevantes para nuestro contenido. entonces, por esas razones, probamos otra solución que agrupará nuestro contenido sin clasificarlo.
Gracias :)
fuente
Respuestas:
Algunos conjuntos de datos estándar para la clasificación de texto son el grupo 20-News, Reuters (con 8 y 52 clases) y WebKb. Puedes encontrarlos todos aquí .
fuente
Una de las colecciones de pruebas más utilizadas para la investigación de categorización de texto (enlace a continuación). Lo he usado muchas veces. Disfruta tu exploración :)
http://www.daviddlewis.com/resources/testcollections/reuters21578/ o http://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
fuente
Aquí hay un montón de conjuntos de datos gratuitos que UC Irvine puede jugar . Entre esos conjuntos de datos, hay unas pocas docenas de conjuntos de datos textuales que pueden ayudarlos con su tarea.
Esos son tipos de conjuntos de datos genéricos, por lo que, dependiendo de su propósito, no deberían usarse como los únicos datos para entrenar sus modelos, o su modelo, aunque podría funcionar, no producirá resultados de calidad.
fuente
Además de las sugerencias anteriores, hay un pdf extremadamente útil: Benchmarking Text Collections for Classification and Clustering Tasks que contiene varios conjuntos de datos junto con los puntos de referencia para probar nuestros modelos. Esto incluye 20ng Collection, Reuters y muchos de los conjuntos de datos sugeridos anteriormente. ¡Espero que ayude!
fuente