Convertidor de PDF a texto [cerrado]

9

Estoy buscando una forma de "hacer un clic" para tomar CUALQUIER PDF y convertirlo a texto sin formato. Idealmente en OSX o Linux.

Idealmente, la solución incluiría la funcionalidad OCR, pero no necesariamente.

La máxima prioridad es tener algo que pueda tomar CUALQUIER archivo SIN configuración.

el espejo
fuente

Respuestas:

23

Hay xpdf que incluye el pdftotextbinario.

Pdftotext convierte archivos de formato de documento portátil (PDF) a texto sin formato.

En Linux hay un instalador disponible. Parece que también viene en el poppler-utilspaquete. En OS X, puede instalarlo usando Homebrew (instale eso primero) y luego usar

brew install homebrew/x11/xpdf

que descargará los archivos fuente y lo compilará para OS X. Después de eso, simplemente úselo como:

pdftotext your_pdf_file.pdf

que generará un archivo de texto sin formato. También hay un par de opciones, echa un vistazo man pdftotextpara más detalles.

Una alternativa es poppler , en OSX:

brew install poppler

en Debian y amigos

apt-get install poppler-utils
slhck
fuente
a partir de hoy el comando esbrew install homebrew/x11/xpdf
Diego Vieira
1
@DiegoVieira Gracias. ¡La próxima vez no dudes en sugerir una edición!
slhck
alguna ventaja usando poppler en lugar de xpdf / pdftotext?
Gonzalo Bahamondez
brew install Caskroom/cask/pdftotext
Hugo