Necesito archivos PDF para enviar mensajes de texto para poder buscarlos en masa desde la línea de comandos. ¿Hay algún convertidor para Ubuntu, OBSD o una distribución similar?
Quizás publicación relacionada, OCR con ubuntu aquí .
calibre 's ebook-convertprograma de línea de comandos (o calibre en sí) es otra opción; puede convertir PDF a texto plano u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.
ebook-convert file.pdf file.txt
AbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos, y al menos opcionalmente tiene un complemento de importación de PDF:
ebook-convert de calibre ... ¿has visto lo que hace a las ligaduras? bleargh Digámoslo de esta manera: no es un programa muy efectivo. pdftotext es mucho más fiel. Nunca he descubierto ningún error en su salida.
ixtmixilix
1
Puede usar menos para ver archivos pdf como texto. Invoca un preprocesador, es decir, lesspipe, para invocar pdftotext o herramientas similares.
Daniel Näslund
pdftotextda resultados más precisos que ebook-converty es muy rápido. ebook-convertes lento
Amit Patel
pdftotextcon -layoutopción rocas! calibreRequiere más de 600 MB para instalar! Eso es una locura)
Stalinko
9
Puede convertir archivos PDF a texto en la línea de comandos con pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspaquete).
Puede usar Recoll
(Ubuntu: recoll ; OpenBSD: no port, pero hay uno para FreeBSD ) para buscar dentro de varios tipos de documentos de texto formateados, incluido PDF. Hay una GUI, y crea un índice automáticamente debajo del capó. Se utiliza pdftotextpara convertir PDF a texto.
Acrobat Reader (al menos la versión 9 en Linux) tiene una capacidad limitada de búsqueda de múltiples archivos (puede buscar en todos los archivos en un directorio).
pdftotext es probablemente lo que está buscando: http://en.wikipedia.org/wiki/Pdftotext a menos que el texto que desea extraer esté realmente bajo una forma gráfica, que no es tan común con los documentos pdf.
Hola y bienvenidos al sitio. Nos gusta que las respuestas sean un poco más completas aquí. Por ejemplo, podría agregar dónde gPDFTextse puede obtener, cómo se puede instalar y cómo se usaría para responder la pregunta del OP.
pdftotext
=pdfcat
.Respuestas:
¡Tienes muchas opciones!
pdftotext
de poppler ya se ha mencionado.Hay un programa llamado Haskell
pdf2line
que funciona bien.calibre 's
ebook-convert
programa de línea de comandos (o calibre en sí) es otra opción; puede convertir PDF a texto plano u otro formato de libro electrónico (RTF, ePub), en mi opinión genera mejores resultados que pdftotext, aunque es considerablemente más lento.ebook-convert file.pdf file.txt
AbiWord puede convertir entre cualquier formato que conozca desde la línea de comandos, y al menos opcionalmente tiene un complemento de importación de PDF:
abiword --to=txt file.pdf
Otra opción más es
podofotextextract
de la biblioteca de herramientas PDF de podofo. Realmente no lo he intentado.Si combina las dos herramientas de Ghostscript
pdf2ps
yps2ascii
tiene otra opción.De hecho, puedo pensar en algunos métodos más, pero lo dejaré así por ahora. ;)
fuente
pdftotext
da resultados más precisos queebook-convert
y es muy rápido.ebook-convert
es lentopdftotext
con-layout
opción rocas!calibre
Requiere más de 600 MB para instalar! Eso es una locura)Puede convertir archivos PDF a texto en la línea de comandos con pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
paquete).Puede usar Recoll (Ubuntu: recoll ; OpenBSD: no port, pero hay uno para FreeBSD ) para buscar dentro de varios tipos de documentos de texto formateados, incluido PDF. Hay una GUI, y crea un índice automáticamente debajo del capó. Se utiliza
pdftotext
para convertir PDF a texto.Acrobat Reader (al menos la versión 9 en Linux) tiene una capacidad limitada de búsqueda de múltiples archivos (puede buscar en todos los archivos en un directorio).
fuente
pdftotext es probablemente lo que está buscando: http://en.wikipedia.org/wiki/Pdftotext a menos que el texto que desea extraer esté realmente bajo una forma gráfica, que no es tan común con los documentos pdf.
fuente
gPDFText convierte el contenido del ebook PDF en texto ASCII, reformateado para párrafos largos, funciona para mí y tiene una interfaz gráfica.
fuente
gPDFText
se puede obtener, cómo se puede instalar y cómo se usaría para responder la pregunta del OP.