Hola, estoy escribiendo un juego en el que el jugador tiene que conectar un grupo de letras para formar palabras. Algo así como un ratón de biblioteca, pero será muy diferente, espero.
El punto de la pregunta es que necesito construir un diccionario de palabras.
Hice un programa simple de Java que rastrea la web y extrae palabras, pero mucha basura se mezcla con las buenas palabras y es imposible limpiarla. Estoy hablando de 100,000 palabras.
¿Hay algún diccionario disponible que pueda usarse libremente o alguien tiene una idea de cómo construir uno?
¡Gracias!
El siguiente sitio está intentando acumular enlaces a diferentes proyectos de diccionario abiertos. Si entiendo lo que están haciendo correctamente, están ofreciendo paquetes de diccionario que potencialmente podría descargar y leer con su aplicación. Esperemos que esto te lleve en una dirección útil.
Abrir bases de datos del diccionario
fuente
El proyecto Moby es el más grande que conozco. También es la fuente del paquete de "palabras" de Fedora, por ejemplo, al menos en inglés.
fuente
Este parece bastante agradable, aunque no lo sé en comparación con otros.
Parece estar en un formato fácilmente analizable y legible también.
fuente
Realicé algo recientemente donde eliminé cada palabra de la guerra y la paz, aunque no contiene cada palabra en el diccionario, tiene el beneficio adicional de poder contar el uso de las palabras para tener una idea de la distribución del uso, también encontrará jerga sin embargo, palabras y nombres, aunque estos se pueden filtrar simplemente
fuente