Herramienta para medir la legibilidad del texto en inglés.

13

¿Existe un programa de línea de comando que tome un archivo que contenga texto en inglés, analice el texto y genere puntajes de legibilidad?

Por ejemplo, si uno alimenta el programa con un texto, el programa debería generar el nivel de grado Flesch-Kincaid, la calificación SMOG de McLaughlin, etc.

Creo que dicho programa existe en los repositorios oficiales, pero no puedo recordar su nombre. También existe la posibilidad de que me esté equivocando.

Flujo
fuente

Respuestas:

11

El diction Instalar dicciónpaquete contiene una herramienta llamada style:

Style analiza las características superficiales del estilo de escritura de un documento. Imprime varios grados de legibilidad, longitud de palabras, oraciones y párrafos. Además puede localizar oraciones con ciertas características.

Por ejemplo, si evalúo el cuerpo de su pregunta (guardado en un archivo flux_question) para imprimir las oraciones con un índice de legibilidad (ARI) superior a 10:

$ style -r 10 flux_question
flux_question:1: Is there a command line program that takes a file containing English text, analyzes the text, and outputs its readability scores?
flux_question:2: For example, if one feeds the program a text, the program should output the Flesch-Kincaid grade level, McLaughlin's SMOG grading, etc.
readability grades:
        Kincaid: 10.2
        ARI: 10.8
        Coleman-Liau: 12.5
        Flesch Index: 51.1/100
        Fog Index: 12.0
        Lix: 48.6 = school year 9
        SMOG-Grading: 11.2
sentence info:
        333 characters
        65 words, average length 5.12 characters = 1.65 syllables
        4 sentences, average length 16.2 words
        25% (1) short sentences (at most 11 words)
        0% (0) long sentences (at least 26 words)
        1 paragraphs, average length 4.0 sentences
        25% (1) questions
        25% (1) passive sentences
        longest sent 21 wds at sent 2; shortest sent 8 wds at sent 4
word usage:
        verb types:
        to be (1) auxiliary (2) 
        types as % of total:
        conjunctions 5% (3) pronouns 9% (6) prepositions 2% (1)
        nominalizations 0% (0)
sentence beginnings:
        pronoun (1) interrogative pronoun (0) article (0)
        subordinating conjunction (0) conjunction (0) preposition (0)

Para filtrar la salida, puede usar, por ejemplo, tail -n8para obtener solo las calificaciones o grep 'Flesch\|SMOG'simplemente imprimir el índice Flesch y la calificación SMOG:

$ style style_test | grep 'Flesch\|SMOG'
        Flesch Index: 51.7/100
        SMOG-Grading: 11.2

Otras lecturas

postre
fuente