Cómo convertir PDF a formato eBook

8

¿Hay alguna manera de convertir un documento PDF a un formato de libro electrónico como epub, azw o mobi? Estoy buscando una aplicación, que sea rápida en la conversión. Acabo de probar calibre. Después de 10 minutos, ni siquiera se ha alcanzado el 2% de la conversión. Así que por favor no calibre. Se prefiere CLI.

ManuelSchneid3r
fuente

Respuestas:

6

Deberías intentarlo pdftotext(viene bajo Ubuntu en el paquete poppler-utils). Es un convertidor de línea de comandos. Se supone que el PDF tiene texto y no consta solo de imágenes.

Si el archivo PDF consta de imágenes (sin información de OCR), debe buscar una solución de OCR, que es mucho más lenta.

También utilicé con éxito el método OCR en texto PDF codificado (colocando los caracteres individuales en una página de forma no lineal). Luego se usa, por ejemplo, pdftoppmpara obtener imágenes individuales de las páginas y OCR.

Anthon
fuente
6

Generalmente uso Calibre , para convertir desde varios formatos (epub, mobi y pdf). Es bastante sencillo convertir con él, aquí hay una captura de pantalla, hay otros y también un video tutorial .

captura de pantalla

   ss de calibre

slm
fuente
3
¿Qué parte de "por favor no calibre" no está clara?
mlp
55
Cuando conteste preguntas en cualquier sitio de SE, está atendiendo tanto al OP como a cualquier persona que encuentre este hilo de preguntas y respuestas en el futuro. Esta respuesta está destinada a cubrir todas las bases para esas personas. También Calibre podría ser la mejor opción, tal vez el OP tenía una versión con errores O estaba mal configurado. Lo he usado docenas de veces y hace un buen trabajo de conversión.
slm
No puedo convertir el archivo pfd a epub en un diseño fijo. ¿Podría decirme cuáles son los pasos que deben seguirse para convertir un pdf a epub en un diseño fijo?
Mohan Rathour
1

Tuve que hacer esto para un archivo PDF una vez, y este fue el resultado (usando pdftohtml de poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Alimente el zip a Calibre y conviértalo a EPUB. Filtra todas las propiedades CSS (como colores, fuentes).

Cada archivo PDF es diferente, no existe una solución definitiva. Lo anterior funcionó para un caso específico: debe debilitar pdftohtml / pdftotext y luego ajustar la salida para satisfacer sus necesidades.

Si esto falla y tienes que recurrir a OCR, he tenido suerte con cuneiforme. Pero también prueba tesseract, ocrad, gocr. Sin embargo, todos ellos requieren mano de obra para un buen resultado.

Frostschutz
fuente