¿Cómo puedo obtener el recuento de palabras de un archivo PDF? Creo que la mayoría de los archivos pdf para los que quiero obtener el recuento total de palabras tienen una capa de texto incrustada, por lo que no necesito OCR.
La tarea surgió de la búsqueda de algunos artículos científicos de tamaño conocido, por ejemplo, 15000 palabras. La mayoría de los trabajos de moderadores se publican en formato pdf.
pdf
word-count
osgx
fuente
fuente
pdftotext
: no olvides la e. Y se puede utilizar un solo comando:pdftotext myfile.pdf - | wc -w
.pdftotext
es parte de Xpdf, que también está disponible para la plataforma Windows. La página de descarga de Xpdf se encuentra aquí: foolabs.com/xpdf/download.html .wc
también se puede encontrar, pero alternativamente se puede usar prácticamente cualquier procesador de textos como Word o LibreOffice Writer. También cuentan palabras. (Para LibreOffice Writer, vaya a Archivo -> Propiedades -> Estadísticas)Esta es una tarea difícil, no fácil de resolver. Si realmente desea un resultado exacto, copie párrafo por párrafo para su visor de PDF en un archivo de texto y verifíquelo con la
wc -w
herramienta. La razón por la que no se usapdftotext
en ese caso es: las fórmulas matemáticas también pueden entrar en la salida y considerarse como "palabras". (Alternativamente, puede editar el resultado que obtienepdftotext
). Otra razón por la que esto puede fallar son los encabezados: "4.3.2 Foo Bar" se cuenta como tres palabras.Una forma de evitarlo es contar las palabras que comienzan con un carácter de [A-Za-z]. Entonces, lo que hago habitualmente es un enfoque de dos pasos:
obtenga la lista de palabras uniq y compruebe si hay demasiados falsos positivos en su interior:
pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words
No uso un diccionario aquí, ya que algunos errores ortográficos no contarían como palabras.
Obtenga esta lista de palabras y grep dentro de la salida de pdftotext:
pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l
Sé que esto podría hacerse dentro de una línea, pero no pude ver fácilmente el resultado del filtro desde el primer paso. El
-F
puede ayudarle a como se indica por el comentario de moi a continuación (gracias).fuente
grep -Ff words
, porque grep se queja de "Incomparable [o [^"). Desde la página de manual: `` -F, --fixed-strings Interpreta PATTERN como una lista de cadenas fijas, separadas por nuevas líneas, cualquiera de las cuales debe coincidir. (-F está especificado por POSIX.) ``Acabo de probar un programa gratuito, Translator's Abacus . Puede arrastrar y soltar varios tipos de archivos (incluido PDF), y aparece un navegador con un informe imprimible del recuento de palabras para cada documento. Funcionó bien para mí. (Está creado específicamente para el recuento de palabras y tiene solo 435 KB ... es decir, no es una "gran aplicación"). El traductor Abacus no funciona en PDF 1.5 o posterior.
Alternativamente : puede simplemente Ctrl+ Apara seleccionar todo el texto en Acrobat Reader y luego copiarlo y pegarlo en un programa como Microsoft Word (que tiene un recuento de palabras en la barra de estado en la parte inferior de la pantalla).
fuente
Una manera sencilla de hacer esto si usa Acrobat Pro es exportar el PDF a un documento de Microsoft Word y luego hacer el recuento de palabras en Word. Alternativamente, puede exportarlo a un archivo de texto sin formato y usar una utilidad de conteo de palabras en el editor de texto de su elección /. Acabo de contar una palabra en un artículo en pdf usando el método de Word y me llevó 30 segundos completarlo.
Espero que esto ayude.
fuente
Puede instalar OCRFeeder . En él, elija Archivo-> Importar PDF-> Detectar y reconocer automáticamente todas las páginas-> Exportar a ODT y el documento de escritor de libreoffice estará listo para el recuento de palabras o cualquier otra función RTF que desee usar.
fuente
Me parece conveniente el contador de palabras incluido en las herramientas abracadabra . Sin embargo, la instalación es un poco peculiar.
fuente
Puede usar la consola JavaScript de Adobe Acrobat con el siguiente código, que tomé de la respuesta de Dave Merchant en forum.adobe.com :
Probado con Adobe Acrobat Pro DC 2018.011.20040 en Windows 7 SP1 x64 Ultimate.
Para habilitar la consola de JavaScript:
Para iniciar la ventana de la consola de JavaScript:
CTRL + J
Para su información, si tiene la fuente LaTeX correspondiente al PDF: recuento correcto de palabras de un documento LaTeX .
fuente
El estándar de facto, que los traductores utilizan desde alrededor del año 2000, es AnyCount Word Count Tool. Hace recuentos de palabras en PDF y otros 37 formatos.
fuente
Ctrl+ Shift+ Fingrese la búsqueda avanzada, escriba la palabra y contará cuántas veces está en el documento. No es ciencia espacial.
fuente