En Linux: ¿cómo extraer texto de un texto .pdf
en el que realmente es texto, no una imagen escaneada? Quiero algo que pueda usar en la línea de comandos / en un script, no de forma interactiva. (No quiero convertir .tif
y usar OCR; el texto ya está disponible en el .pdf
archivo, entonces, ¿por qué introducir imprecisiones de OCR imperfecto?)
23
Respuestas:
pdftotext
que viene con poppler intentará extraer cualquier texto encontrado en el PDF.fuente
La respuesta de Ignacio está bien. De hecho, sería lo primero en mi lista. Bueno, eso y tal vez para sugerir la
pdftohtml
herramienta que también viene con poppler, combinada con pdfreflow si desea intentar volver a ensamblar el texto en párrafos, etc. (Por supuesto, esto le dará salida HTML, pero la conversión de HTML a texto plano puede hacerse de muchas maneras.)Aquí hay algunas otras opciones también.
La
ebook-convert
herramienta de línea de comandos de Calibre , que puede convertir archivos .PDF a texto plano (o RTF o varios formatos de libros electrónicos, como ePub, etc.)pdftxtextract
de PodofoSe puede llamar a Abiword desde la línea de comandos para convertir entre cualquier formato desde el que pueda ingresar / exportar, y con el complemento de importación apropiado, esto incluye archivos PDF:
abiword --to=txt file.pdf
(Para ser justos, creo que AbiWord y calibre usan las bibliotecas poppler, pero no soy positivo).
fuente