Actualmente estoy buscando conjuntos de datos etiquetados para entrenar un modelo para extraer entidades nombradas del texto informal (algo similar a los tweets). Debido a que a menudo faltan mayúsculas y gramática en los documentos de mi conjunto de datos, estoy buscando datos fuera del dominio que sean un poco más "informales" que el artículo de noticias y las entradas de diario que son muchos de los sistemas de reconocimiento de entidades de vanguardia actuales. entrenado en.
¿Alguna recomendación? Hasta ahora solo he podido localizar 50k tokens de Twitter publicados aquí .
Respuestas:
Según tengo entendido, estas son las propiedades que está buscando en un conjunto de datos de muestra:
Aquí hay algunas recomendaciones:
rvest
,scrapeR
, etc.) y Python para lograr estofuente
Comprueba estos:
Repositorio de dominios de prueba para extracción de información: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( espejo )
Enlace actualizado:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
fuente
Algunas de las fuentes que he usado:
Creo que estos conjuntos de datos serán de gran ayuda para su tarea.
fuente