¿De dónde vienen las palabras en / usr / share / dict / words?

10

/usr/share/dict/wordscontiene muchas palabras ¿Cómo se genera esta lista? ¿Su contenido es el mismo en diferentes unidades? ¿Hay algún estándar que dicte lo que debe contener?

Todo lo que he podido encontrar hasta ahora es que en Ubuntu / Debian la lista proviene de los paquetes de listas de palabras , pero sus descripciones no ofrecen pistas sobre cómo se generaron realmente las listas.

Mark Amery
fuente

Respuestas:

10

Estás haciendo múltiples preguntas, pero creo que la principal es:

¿Hay algún estándar que dicte lo que debe contener?

Que yo sepa, no.

Dado eso, sus preguntas relacionadas:

¿Cómo se genera esta lista? ¿Su contenido es el mismo en diferentes unidades?

se responden "depende de cada Unix diferente".

La convención de incluir una lista de palabras como parte del sistema operativo proviene de la spell(1)utilidad , que la utiliza para un procedimiento de corrección ortográfica primitiva.

Ese procedimiento de corrección ortográfica se describe en el documento académico "Desarrollo de una lista de ortografía", del MD McIlroy de Bell Labs, 1982 .

Debe consultar el administrador de paquetes de su sistema operativo para saber de dónde proviene la lista de ortografía, cómo se genera y qué alternativas están disponibles.

En Debian GNU + Linux, por ejemplo:

  • El /usr/share/dict/wordsarchivo es un enlace simbólico administrado utilizando el sistema de "alternativas" de Debian.
  • Un paquete de lista de palabras común que proporciona ese enlace es el wamericanpaquete.
  • La documentación del paquete para los wamericanestados de su lista de palabras proviene del proyecto SCOWL (Listas de palabras orientadas al corrector ortográfico) .

Se pueden instalar muchos otros paquetes de listas de palabras; cada uno tiene el campo "Proporciona: lista de palabras":

$ aptitude search '?provides(wordlist)' | wc -l
34

En diferentes unidades, deberá ver el sistema de paquetes y la documentación para conocer la procedencia y las alternativas de la lista de palabras.

nariz grande
fuente
2
FWIW: En una instalación mínima de Centos 7 x64 (donde el archivo de palabras está ausente), yum install wordsfue el truco para mí.
Wossname