Estoy tratando de recopilar estadísticas sobre las secuencias de caracteres o palabras utilizadas en el idioma inglés para su uso en un proyecto de software.
¿Dónde puedo obtener una gran cantidad (varios GB sería bueno) de texto sin formato en inglés que cubre un conjunto diverso de temas?
research
statistics
JSideris
fuente
fuente
Respuestas:
Puede usar los volcados de datos de Wikipedia . El volcado de datos XML para Wikipedia en inglés que incluye solo las revisiones actuales es de aproximadamente 31 GB, por lo que diría que sería un buen comienzo para su investigación. El volcado de datos es bastante grande, por lo que debería considerar extraer los textos de XML con un analizador SAX. WikiXMLJ es una práctica API de Java ajustada para Wikipedia.
Y luego, por supuesto, siempre están los volcados de datos de Stack Exchange . La última incluye todos los sitios públicos de Stack Exchange no beta y los correspondientes sitios Meta hasta septiembre de 2011. Pero, naturalmente, las publicaciones de Stack Exchange se concentran en el alcance de cada sitio, por lo que probablemente no sea tan generalizado como desearía. Sin embargo, las publicaciones meta son un poco más generales, por lo que podría considerarlas además de Wikipedia.
No creo que encuentres nada mejor, especialmente en texto plano. Varios conjuntos de datos abiertos están disponibles a través del Data Hub , pero creo que el volcado de datos de Wikipedia en inglés está muy cerca de lo que está buscando.
fuente
Google tiene una colección de conjuntos de datos que utilizan para determinar las probabilidades de n-gramas. Examinar sus conjuntos de datos bigram (2 gramos) debería darle una buena imagen. Hay muchos otros corpi por ahí para los que ya se han realizado estos análisis.
fuente
El Proyecto Gutenberg tiene un gran corpus de textos en inglés, ya en forma de texto.
fuente
Para las estadísticas, probablemente esté viendo "Frecuencia Bigram en el idioma inglés". Echa un vistazo a: Wiki-Bigram Estadísticas
en cuanto a encontrar un texto grande, tenga en cuenta que la frecuencia estaría sesgada al tipo de texto. Por ejemplo, si analiza direcciones, obtendrá resultados diferentes al analizar historias de periódicos. Si solo desea realizar una prueba, puede usar el archivo PDF de cualquier libro (mejor no ser un libro de matemáticas, programación o medicina) y convertirlo a texto y luego ejecutar sus pruebas. También puede convertir páginas web de periódicos en texto y trabajar en ellas.
fuente