Estoy usando pdftotext (parte de poppler-utils) para convertir documentos PDF a texto. Funciona, en su mayor parte, pero una cosa que desearía hacer era insertar líneas en blanco entre párrafos separados en lugar de juntarlos.
¿Hay alguna forma de obtener pdftotext para hacer esto? Y si no, ¿hay otra utilidad de pdf a texto que pueda hacer esto?
pdf
conversion
dan
fuente
fuente
PDF to audio software for academic papers?
softwarerecs.stackexchange.com/questions/10640/…Respuestas:
Podrías probar
ebook-convert
de Calibre.En todo caso, diría que se equivoca en la otra dirección: demasiados saltos de línea.
Sin embargo, otra cosa que definitivamente consideraría es convertir a HTML usando pdfreflow , y luego convertir el HTML a TXT.
fuente
ebook-convert
no puede convertir el diseño de varias columnas, combina las columnas en una columna. Para el diseño de varias columnaspdftotext
produce una salida mucho mejor. Las limitaciones adicionales se describen en manual.calibre-ebook.com/conversion.html#convert-pdf-documents .Si está usando pdftotext , puede usar la
-layout
bandera para preservar el diseño del texto en las páginas en su archivo pdf de entrada:fuente
-r
(resolución, 72 ppp por defecto)Como fanático del código abierto (y la automatización), odio decir esto, pero los mejores resultados que obtuve (en un PDF bastante grande y complejo) fueron abrirlo en Adobe Reader, luego elegir Archivo | Guardar como texto.
(Estoy procesando previamente los experimentos de análisis de texto, no como lector, pero creo que mi primera y segunda opción serían las mismas).
He estado comparando la salida de lado a lado. Mi segunda opción es convertir libros electrónicos.
Adobe : a la izquierda en FF para saltos de página, a la izquierda en números de página, no ha convertido encabezados / párrafos en líneas simples, pero ha corregido guiones. La basura que estaba oculta en el PDF no obtuvo salida. Obtuve correctamente las grandes capitales al comienzo de las secciones, por ejemplo, "The", no "T he" o incluso "T he".
ebook-convert : Izquierda en números de página y algo de basura oculta en encabezado / pie de página (pero no FF). Convierte la mayoría de los párrafos en líneas simples. Sin embargo, los que se perdieron son de doble espacio. Las viñetas no siempre se alinean con el texto. Obtuve correctamente "The" al comienzo del capítulo.
pdftotext (sin --layout) : No está mal, las viñetas se alinean, pero el ruido del encabezado / pie de página. Los FF están ahí. Guiones eliminados. Lo peor para el comienzo del capítulo letras grandes: "T \ n \ nhe".
pdftotext (con --layout) : similar, pero con más sangrías. "T he" para el inicio del capítulo.
pdftohtml >> pdfreflow >> htmltotext : eliminó los números de página, pero aún así no es basura en el encabezado / pie de página. "T he" para el inicio del capítulo. Guiones eliminados. (Utiliza varias líneas por párrafo, ¡pero no son los mismos saltos de línea que en las otras versiones!)
fuente
ebook-convert
funcionó bienSi tiene una cuenta de Google, puede usar Google Docs para cargar el PDF y transformarlo en texto editable.
fuente
También probé pypdf y lo comparé con pdftotext en dos documentos. Tenía más saltos de línea y dividía algunos nombres de sección (REFERENCES era REFERENCES).
pdf2txt hizo salir basura completa.
A menudo uso pdfBox (java) si pdftotext arruina la salida. Puedes intentarlo.
fuente