Una lista de (o método para obtener) una lista de cada palabra en cada idioma [cerrado]

-2

Estoy buscando una lista de palabras de cada idioma, incluida la jerga. ¿Existe una lista tan grande?

Sé que mi mejor opción es obtener el /usr/share/dict/wordspara cada idioma y completar la jerga más tarde (sin jerga en dict / palabras) pero no estoy seguro de cómo descargar estos archivos. Tampoco estoy seguro de dónde obtener la jerga.

Veo que Wiktionary tiene mucho de lo que necesito pero no jerga. Además, no estoy listo para escribir algo para pasar por ese sitio.

[EDITAR] Todavía necesito este 2019. Aquí hay una fuente. https://github.com/dwyl/english-words

Chips
fuente
¿Una contraseña que consta de cada palabra en cada idioma? Eso sería absolutamente pirateado. Pero, ¿cómo lo recordarás y no te llevará una eternidad teclear cada vez?
fijador1234
1
Cada idioma ???? Te das cuenta de que hay más de 200 idiomas. ¿Su lista también incluiría Cherokee? o inuit? Buena suerte con tu tesis doctoral.
LDC3
1
Me imagino que una respuesta fácil sería decir que puedes asumir que cualquier combinación de letras de 2 a 5 caracteres de largo es una palabra en algún idioma en algún lugar si cuidas algunas reglas fonéticas, como no más de 2 vocales en un fila. Probablemente la mayoría de las combinaciones de 6 y 7 caracteres también. Eso se encarga de la mayoría de ellos. Usted
descubre
1
Esto no es posible en idiomas, como el inglés, que no tienen autoridad sobre qué es una "palabra" y qué no. Sería mejor si explicaras por qué quieres tal cosa.
Dour High Arch
¿Está esto relacionado con esta pregunta cerrada sobre Stack Overflow? stackoverflow.com/questions/2213607/…
JakeGould

Respuestas:

1

No está seguro acerca de otros idiomas, pero debe comenzar por ver la Lista de palabras abiertas en inglés para comenzar:

El EOWL actualmente contiene alrededor de 128,985 palabras. Para hacer que EOWL sea más utilizable para juegos de palabras de computadora, todas las palabras de más de 10 letras se eliminaron de la lista de fuentes de UKACD, y se eliminaron todos los sustantivos y palabras que requieren símbolos diacríticos, guiones y apóstrofes. Esto lo hace muy parecido a la lista de palabras ENABLE estándar, pero EOWL es algo más pequeño (por 44,000 palabras más o menos) ya que no contiene palabras de más de 10 caracteres.

Además, mire las SCOWL (Listas de palabras orientadas al corrector ortográfico) y sus amigos :

SCOWL (Listas de palabras orientadas al corrector ortográfico) y Friends es una base de datos de información sobre palabras en inglés útil para crear listas de palabras de alta calidad adecuadas para su uso en los correctores ortográficos de la mayoría de los dialectos del inglés. La base de datos primaria contiene información sobre qué tan común es una palabra, las diferencias en la ortografía entre los dialectos del inglés, la información de la variante de ortografía y la información (básica) de la parte del discurso y la inflexión.

JakeGould
fuente