¿Dónde encontrar un corpus de texto grande? [cerrado]
16
Estoy buscando un corpus de texto grande (> 1000) para descargar. Preferiblemente con noticias mundiales o algún tipo de informes . Solo he encontrado uno con patentes. ¿Alguna sugerencia?
Esta pregunta parece estar fuera de tema porque se trata de encontrar un conjunto de datos, en lugar de hacer un análisis estadístico
Peter Flom - Restablecer a Monica
2
Bueno, eso es incómodo, porque este Q&A es realmente útil.
Sideshow Bob el
@guaka, por favor, no publique publicaciones tan antiguas para ediciones menores, especialmente una publicación que está cerrada. Es cierto que nuestra preferencia de estilo no es tener "gracias", pero por algo tan menor, simplemente lo dejamos.
No es el corpus más interesante (o diverso). La licencia también es restrictiva en relación con Wikileaks (documentos de dominio público de EE. UU.) O wikinoticias.
ariddell
@ariddell estoy de acuerdo, pero se usa comúnmente en ejemplos introductorios de PNL, y es lo suficientemente grande como para ser útil en el aprendizaje, pero lo suficientemente pequeño como para ser analizado en una buena computadora portátil.
Respuestas:
¿No te convienen los textos de Wikileaks?
fuente
¿Qué hay de wikinoticias ? Aquí está el último volcado de base de datos que pude encontrar: http://dumps.wikimedia.org/enwikinews/20111120/
Probablemente desee la opción "Todas las páginas, solo versiones actuales".
fuente
El corpus de texto reuters es un clásico en el campo, y se puede encontrar aquí
fuente
http://endb-consolidated.aihit.com/datasets.htm contiene 10K compañías con descripciones textuales
fuente
Si lo reciente no es un problema, puedes intentar
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
y hay muchos otros conjuntos de datos similares en infochimp dependiendo de su presupuesto.
Saludos, Andy.
fuente
Si desea n-gramas precalculadas, puede probar el archivo de google books:
http://books.google.com/ngrams/datasets
fuente