Conjunto de datos para el reconocimiento de entidades con nombre en texto informal

18

Actualmente estoy buscando conjuntos de datos etiquetados para entrenar un modelo para extraer entidades nombradas del texto informal (algo similar a los tweets). Debido a que a menudo faltan mayúsculas y gramática en los documentos de mi conjunto de datos, estoy buscando datos fuera del dominio que sean un poco más "informales" que el artículo de noticias y las entradas de diario que son muchos de los sistemas de reconocimiento de entidades de vanguardia actuales. entrenado en.

¿Alguna recomendación? Hasta ahora solo he podido localizar 50k tokens de Twitter publicados aquí .

Madison May
fuente
2
Recomiendo preguntar en opendata.stackexchange.com
Air
@Madison May. ¿Encontraste un conjunto de datos? Estoy buscando algo similar Gracias.
ahoffer
Tuve que arreglármelas con el twitter ner corpus de U. Washington (vinculado en la publicación original).
Madison May
¿Tienes algún buen corpus anotado inglés relacionado?
Achyuta nanda sahoo

Respuestas:

6

Según tengo entendido, estas son las propiedades que está buscando en un conjunto de datos de muestra:

  1. Datos de texto
  2. Debe ser informal, es decir, tener errores tipográficos, jerga y, básicamente, algo no editado profesionalmente
  3. Algo más que Twitter (no te culpo, Twitter es una fuente de datos de ejemplo útil pero muy utilizada en la minería de texto)

Aquí hay algunas recomendaciones:

  1. Correos electrónicos del corpus SpamAssassin : tenga en cuenta que están disponibles los conjuntos de datos "no deseados" y no deseados
  2. Conjunto de datos de microblogPCU de UCI, que son datos extraídos de los microblogs de los usuarios de Sina Weibo. Tenga en cuenta que los datos de texto sin procesar son una mezcla de chino e inglés (puede realizar la traducción automática del chino, filtrar solo al inglés o usarlo como es)
  3. Amazon Commerce revisa el conjunto de datos de UCI
  4. Dentro del conjunto de datos bag-o-words , intente usar los correos electrónicos de Enron
  5. El conjunto de datos de veinte grupos de noticias
  6. Esta bonita colección de spam por SMS
  7. Siempre puede raspar (extraer) sus propios datos de texto de Internet; No estoy seguro de cuál o cuáles han paquete estadístico que está utilizando, pero los paquetes basados en XPath están disponibles en R ( rvest, scrapeR, etc.) y Python para lograr esto
Hack-R
fuente
1
¿Alguno de estos conjuntos de datos está anotado con entidades nombradas? Creo que eso es lo que OP estaba buscando.
Sr. Phil