En Linux: ¿cómo extraer texto de un texto .pdfen el que realmente es texto, no una imagen escaneada? Quiero algo que pueda usar en la línea de comandos / en un script, no de forma interactiva. (No quiero convertir .tify usar OCR; el texto ya está disponible en el .pdfarchivo, entonces, ¿por qué introducir imprecisiones de OCR imperfecto?)
23

Respuestas:
pdftotextque viene con poppler intentará extraer cualquier texto encontrado en el PDF.fuente
La respuesta de Ignacio está bien. De hecho, sería lo primero en mi lista. Bueno, eso y tal vez para sugerir la
pdftohtmlherramienta que también viene con poppler, combinada con pdfreflow si desea intentar volver a ensamblar el texto en párrafos, etc. (Por supuesto, esto le dará salida HTML, pero la conversión de HTML a texto plano puede hacerse de muchas maneras.)Aquí hay algunas otras opciones también.
La
ebook-convertherramienta de línea de comandos de Calibre , que puede convertir archivos .PDF a texto plano (o RTF o varios formatos de libros electrónicos, como ePub, etc.)pdftxtextractde PodofoSe puede llamar a Abiword desde la línea de comandos para convertir entre cualquier formato desde el que pueda ingresar / exportar, y con el complemento de importación apropiado, esto incluye archivos PDF:
abiword --to=txt file.pdf(Para ser justos, creo que AbiWord y calibre usan las bibliotecas poppler, pero no soy positivo).
fuente