Necesito archivos PDF para enviar mensajes de texto para poder buscarlos en masa desde la línea de comandos. ¿Hay algún convertidor para Ubuntu, OBSD o una distribución similar?
Quizás publicación relacionada, OCR con ubuntu aquí .
calibre 's ebook-convertprograma de línea de comandos (o calibre en sí) es otra opción; puede convertir PDF a texto plano u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.
ebook-convert file.pdf file.txt
AbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos, y al menos opcionalmente tiene un complemento de importación de PDF:
ebook-convert de calibre ... ¿has visto lo que hace a las ligaduras? bleargh Digámoslo de esta manera: no es un programa muy efectivo. pdftotext es mucho más fiel. Nunca he descubierto ningún error en su salida.
ixtmixilix
1
Puede usar menos para ver archivos pdf como texto. Invoca un preprocesador, es decir, lesspipe, para invocar pdftotext o herramientas similares.
Daniel Näslund
pdftotextda resultados más precisos que ebook-converty es muy rápido. ebook-convertes lento
Amit Patel
pdftotextcon -layoutopción rocas! calibreRequiere más de 600 MB para instalar! Eso es una locura)
Stalinko
9
Puede convertir archivos PDF a texto en la línea de comandos con pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspaquete).
Puede usar Recoll
(Ubuntu: recoll ; OpenBSD: no port, pero hay uno para FreeBSD ) para buscar dentro de varios tipos de documentos de texto formateados, incluido PDF. Hay una GUI, y crea un índice automáticamente debajo del capó. Se utiliza pdftotextpara convertir PDF a texto.
Acrobat Reader (al menos la versión 9 en Linux) tiene una capacidad limitada de búsqueda de múltiples archivos (puede buscar en todos los archivos en un directorio).
pdftotext es probablemente lo que está buscando: http://en.wikipedia.org/wiki/Pdftotext a menos que el texto que desea extraer esté realmente bajo una forma gráfica, que no es tan común con los documentos pdf.
Hola y bienvenidos al sitio. Nos gusta que las respuestas sean un poco más completas aquí. Por ejemplo, podría agregar dónde gPDFTextse puede obtener, cómo se puede instalar y cómo se usaría para responder la pregunta del OP.
pdftotext=pdfcat.Respuestas:
¡Tienes muchas opciones!
pdftotextde poppler ya se ha mencionado.Hay un programa llamado Haskell
pdf2lineque funciona bien.calibre 's
ebook-convertprograma de línea de comandos (o calibre en sí) es otra opción; puede convertir PDF a texto plano u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.ebook-convert file.pdf file.txtAbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos, y al menos opcionalmente tiene un complemento de importación de PDF:
abiword --to=txt file.pdfOtra opción más es
podofotextextractde la biblioteca de herramientas PDF de podofo. Realmente no lo he intentado.Si combina las dos herramientas de Ghostscript
pdf2psyps2asciitiene otra opción.De hecho, puedo pensar en algunos métodos más, pero lo dejaré así por ahora. ;)
fuente
pdftotextda resultados más precisos queebook-converty es muy rápido.ebook-convertes lentopdftotextcon-layoutopción rocas!calibreRequiere más de 600 MB para instalar! Eso es una locura)Puede convertir archivos PDF a texto en la línea de comandos con pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utilspaquete).Puede usar Recoll (Ubuntu: recoll ; OpenBSD: no port, pero hay uno para FreeBSD ) para buscar dentro de varios tipos de documentos de texto formateados, incluido PDF. Hay una GUI, y crea un índice automáticamente debajo del capó. Se utiliza
pdftotextpara convertir PDF a texto.Acrobat Reader (al menos la versión 9 en Linux) tiene una capacidad limitada de búsqueda de múltiples archivos (puede buscar en todos los archivos en un directorio).
fuente
pdftotext es probablemente lo que está buscando: http://en.wikipedia.org/wiki/Pdftotext a menos que el texto que desea extraer esté realmente bajo una forma gráfica, que no es tan común con los documentos pdf.
fuente
gPDFText convierte el contenido del ebook PDF en texto ASCII, reformateado para párrafos largos, funciona para mí y tiene una interfaz gráfica.
fuente
gPDFTextse puede obtener, cómo se puede instalar y cómo se usaría para responder la pregunta del OP.