¿Dónde encontrar un corpus de texto grande? [cerrado]

16

Estoy buscando un corpus de texto grande (> 1000) para descargar. Preferiblemente con noticias mundiales o algún tipo de informes . Solo he encontrado uno con patentes. ¿Alguna sugerencia?

Dimitar Vouldjeff
fuente
Este hilo parece estar fuera de tema. Ver meta.stats.stackexchange.com/questions/1032/… .
whuber
Esta pregunta parece estar fuera de tema porque se trata de encontrar un conjunto de datos, en lugar de hacer un análisis estadístico
Peter Flom - Restablecer a Monica
2
Bueno, eso es incómodo, porque este Q&A es realmente útil.
Sideshow Bob el
@guaka, por favor, no publique publicaciones tan antiguas para ediciones menores, especialmente una publicación que está cerrada. Es cierto que nuestra preferencia de estilo no es tener "gracias", pero por algo tan menor, simplemente lo dejamos.
gung - Restablece a Monica

Respuestas:

9

¿No te convienen los textos de Wikileaks?

adamo
fuente
Pero, ¿cómo podría descargarlos en .txt
Dimitar Vouldjeff
6

¿Qué hay de wikinoticias ? Aquí está el último volcado de base de datos que pude encontrar: http://dumps.wikimedia.org/enwikinews/20111120/

Probablemente desee la opción "Todas las páginas, solo versiones actuales".

mogron
fuente
Esto ya no funciona.
vy32
El enlace de volcado ya no funciona. conjunto de datos por región es pequeño y obsoleto
HappyCoding
6

El corpus de texto reuters es un clásico en el campo, y se puede encontrar aquí

richiemorrisroe
fuente
No es el corpus más interesante (o diverso). La licencia también es restrictiva en relación con Wikileaks (documentos de dominio público de EE. UU.) O wikinoticias.
ariddell
@ariddell estoy de acuerdo, pero se usa comúnmente en ejemplos introductorios de PNL, y es lo suficientemente grande como para ser útil en el aprendizaje, pero lo suficientemente pequeño como para ser analizado en una buena computadora portátil.
richiemorrisroe