¿Dónde puedo obtener un conjunto diverso de texto de muestra? [cerrado]

14

Estoy tratando de recopilar estadísticas sobre las secuencias de caracteres o palabras utilizadas en el idioma inglés para su uso en un proyecto de software.

¿Dónde puedo obtener una gran cantidad (varios GB sería bueno) de texto sin formato en inglés que cubre un conjunto diverso de temas?

JSideris
fuente
3
De alguna manera siento que disfrutarás particularmente estas ilustraciones
yannis
@ Yannis Rizos Estos son increíbles: D.
JSideris 01 de
@Yannis Rizos oh, son bonitas ...
sevenseacat 01 de
@YannisRizos Esto se cerró hace unos años. Finalmente pude editar la pregunta para que sea un poco más específica y mejor para el formato de control de calidad. ¿Puedo abrirlo ahora? (Eres la única persona en este hilo que todavía es moderador).
JSideris

Respuestas:

19

Puede usar los volcados de datos de Wikipedia . El volcado de datos XML para Wikipedia en inglés que incluye solo las revisiones actuales es de aproximadamente 31 GB, por lo que diría que sería un buen comienzo para su investigación. El volcado de datos es bastante grande, por lo que debería considerar extraer los textos de XML con un analizador SAX. WikiXMLJ es una práctica API de Java ajustada para Wikipedia.

Y luego, por supuesto, siempre están los volcados de datos de Stack Exchange . La última incluye todos los sitios públicos de Stack Exchange no beta y los correspondientes sitios Meta hasta septiembre de 2011. Pero, naturalmente, las publicaciones de Stack Exchange se concentran en el alcance de cada sitio, por lo que probablemente no sea tan generalizado como desearía. Sin embargo, las publicaciones meta son un poco más generales, por lo que podría considerarlas además de Wikipedia.

No creo que encuentres nada mejor, especialmente en texto plano. Varios conjuntos de datos abiertos están disponibles a través del Data Hub , pero creo que el volcado de datos de Wikipedia en inglés está muy cerca de lo que está buscando.

Yannis
fuente
1
Esos son algunos recursos geniales.
hanzolo 01 de
Los Stack, aunque extensivos, cubrirán un campo de discurso muy estrecho (por necesidad), por lo que pueden no generalizarse bien.
jonsca 01 de
¡Dios mío, estos archivos son enormes! Tan pronto como pueda encontrar una manera de abrirlos y filtrar toda la basura xml, esto debería funcionar muy bien. ¡Gracias!
JSideris 01 de
1
@Bizorke Me alegro de poder ayudar. Cuando haya terminado, debe actualizar la pregunta con un enlace a su investigación.
Yannis 01 de
5

Google tiene una colección de conjuntos de datos que utilizan para determinar las probabilidades de n-gramas. Examinar sus conjuntos de datos bigram (2 gramos) debería darle una buena imagen. Hay muchos otros corpi por ahí para los que ya se han realizado estos análisis.

jonsca
fuente
3
Yo estaba simplemente escribiendo la misma cosa.
jcmeloni 01 de
@jcmeloni ¡Grandes mentes!
jonsca
5

El Proyecto Gutenberg tiene un gran corpus de textos en inglés, ya en forma de texto.

El Proyecto Gutenberg ofrece más de 42,000 libros electrónicos gratuitos: elija entre libros gratuitos de epub, libros gratuitos, descárguelos o léalos en línea.

Tenemos libros electrónicos de alta calidad: todos nuestros libros electrónicos fueron publicados previamente por editores de buena fe. Los digitalizamos y los revisamos diligentemente con la ayuda de miles de voluntarios ...

Michael Kohne
fuente
1
Pensé en el Proyecto Gutenberg pero no pude encontrar un volcado de datos concentrado. Y para que un libro se incluya, sus derechos de autor deben caducar y, en general, eso significa que han pasado de 50 a 70 años desde la primera publicación del libro. Por lo tanto, no creo que, como conjunto de datos, el Proyecto Gutenberg sea representativo del lenguaje utilizado en la actualidad.
Yannis 01 de
1
Si desea algo que sea "representativo del idioma utilizado hoy", pruebe los comentarios de YouTube. Triste pero cierto.
Jörg W Mittag
@ JörgWMittag - ¡ay! Lo que realmente me molesta es cuán equivocado estás.
Michael Kohne
@ Jörg W Mittag Es posible, pero luego ciertas palabras específicas de youtube aparecen con mucha frecuencia, como: YO OU UT TU UB BE, o peor aún: FA AK KE AN ND GA AY
JSideris
1

Para las estadísticas, probablemente esté viendo "Frecuencia Bigram en el idioma inglés". Echa un vistazo a: Wiki-Bigram Estadísticas

en cuanto a encontrar un texto grande, tenga en cuenta que la frecuencia estaría sesgada al tipo de texto. Por ejemplo, si analiza direcciones, obtendrá resultados diferentes al analizar historias de periódicos. Si solo desea realizar una prueba, puede usar el archivo PDF de cualquier libro (mejor no ser un libro de matemáticas, programación o medicina) y convertirlo a texto y luego ejecutar sus pruebas. También puede convertir páginas web de periódicos en texto y trabajar en ellas.

Ninguna posibilidad
fuente
2
Sí, me doy cuenta de que los resultados serán sesgados. Necesito un recurso que cubra tantos temas como sea posible. Pensé en descargar un montón de libros electrónicos, el principal problema es convertirlos a texto. Pero no estaría de más buscar algunas estadísticas de bigram (no me di cuenta de que así se llamaban las combinaciones de 2 letras).
JSideris 01 de
Gracias por tu comentario. Puede convertir PDF a texto usando Archivo -> Guardar como texto en el lector de PDF ADOBE. Este enlace también puede ser valioso: data-compression.com/english.html
NoChance
@EmmadKareem OP está pidiendo varios GB de texto. ¿Estás sugiriendo seriamente que use Adobe Reader para extraer texto de archivos PDF?
Yannis 01 de
@ YannisRizos, no me di cuenta de que varios GB era un requisito obligatorio. Si este es el caso, existen mejores herramientas que se pueden utilizar para este propósito. Gracias por señalar esto.
NoChance