Para los lingüistas y muchos otros científicos, analizar la frecuencia de las palabras que aparecen en un texto es una gran herramienta. Algunos editores de texto comerciales y algunos sitios web proporcionan esta herramienta.
El análisis de frecuencia de palabras, ordena las palabras en orden decreciente con respecto a su frecuencia. Por ejemplo en este texto
Emacs Stack Exchange is a question and answer site for those using, extending, or developing the emacs text editor. It's built and run by you as part of the Stack Exchange network of Q&A sites. With your help, we're working together to build a library of detailed answers to every question about emacs.
tenemos:
56 words
9: punctuation marks
3: ,
3: .
3: a
3: emacs
3: of
2: '
2: and
2: exchange
2: question
2: stack
2: the
2: to
1: &
1: about
1: answer
1: answers
1: as
1: build
1: built
1: by
1: detailed
1: developing
1: editor
1: every
1: extending
1: for
1: help
1: is
1: it
1: library
1: network
1: or
1: part
1: q
1: re
1: run
1: s
1: site
1: sites
1: text
1: those
1: together
1: using
1: we
1: with
1: working
1: you
1: your
Me pregunto si ya existe un paquete que pueda usarse para proporcionar tales estadísticas.
PD: Ya hice una pregunta diferente en el mismo espíritu y recibí una respuesta excelente (deseo votar más si pudiera).
Respuestas:
El formato de salida (tabla de modo org) está inspirado en el enlace de su pregunta.
fuente
word-stats
, debe evaluarlas todas.punctuation-marks
ya está definido en la primera forma.(require 'cl)
para usar elincr
comando.cl-incf
lugar deincf
requerircl-lib
explícitamente.Evalúe el siguiente código y escriba Mx word-frequency en un búfer con el texto. Obtendrá un búfer con el número de palabras ocurridas y el valor porcentual.
fuente