Quiero convertir un documento DJVU en un documento PDF, separando y preservando la capa de texto y las imágenes al mismo tiempo que mantengo la estructura del DJVU. ¿Cómo puedo hacer esto en Ubuntu?
(Luego usaré Calibre para convertir a ePub / Mobi, por lo que si hubiera un complemento de Calibre para todo este proceso, ¡sería perfecto para mí!)
Nota 1: Imprimir desde Evince, exportar desde DJview o cualquier cosa que use el paquete ddjvu , no son soluciones adecuadas, ya que descartan la capa de texto, guardando solo imágenes.
Nota 2: el uso de DJVULibre parece extraer solo la capa de texto y las imágenes no se extraen . Del mismo modo, copiar el texto "manualmente" pierde la estructura del documento y las imágenes.
Aquí hay una manera, que requeriría algunas herramientas no tan comunes:
Podemos usar el
djvu2hocr
comando (delocrodjvu
paquete) para extraer la capa de texto oculto del archivo DjVu (no hace ningún OCR o similar, solo extrae la capa de texto con geometría), es decir:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
la intervención corrige los nombres de clase en hOCR de salida (que es simplemente un archivo HTML simple)Ahora extraemos la página de DjVu a formato TIFF con:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
para que terminemos con este archivo en nuestra carpeta de trabajo:
Aquí es donde
pdfbeads
entra en juego, y simplemente ejecutamos:pdfbeads -o pg10.pdf
entonces este ingenioso programa se encarga de todo lo que está dentro de esta carpeta (archivos HTML y TIFF con el mismo nombre base) y produce un archivo PDF de salida con algunos subproductos:
que es idéntico al archivo de entrada DjVu y tiene una capa de texto dentro:
Resumen de comentarios:
Los comentarios extensos a continuación tratan sobre la representación de imágenes más pequeñas de la página del documento DjVu como objetos separados, lo cual no es fácilmente posible porque la página del documento DjVu es en sí misma una sola imagen con una capa de texto opcional, sin "información" sobre imágenes más pequeñas como objetos separados. Si el documento DjVu tiene imágenes en color, generalmente se colocarán en la capa de fondo; en este caso, el usuario puede aprovechar herramientas como
ddjvu
(extraer solo la capa de fondo) yimagemagick
(recortar automáticamente) para generar solo imágenes en lugar de todo el lienzo, pero no puede automatizarse para crear una salida PDFOtro enfoque más sano, pero más lento, es el uso de herramientas regulares de GUI de OCR.
gscan2pdf
(> 1.0) se sugiere como posible candidato para PC con Linuxfuente
Hay djvu2pdf pero se basa en ghostscript, por lo que podría ser otra opción de impresión. Todavía te sugiero que le eches un vistazo, en caso de que sea más inteligente de lo que yo le estoy dando crédito.
No está en los repositorios, pero puede descargar un deb del sitio de los creadores: http://0x2a.at/s/projects/djvu2pdf
** Inserte aquí un aviso obligatorio sobre la descarga / instalación de elementos desde fuera de los repositorios **
fuente
Usando DJVULibre , uno puede extraer la capa de texto a través del
terminal
comando:djvutxt myfile.djvu > myfile-ocr.txt
odjvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(ambos hacen lo mismo, y fueron encontrados aquí )
El formateo requiere un poco de esfuerzo (ya que muchos símbolos no se convierten correctamente) y las imágenes no se recuperan .
fuente
http://www.djvu-pdf.com/ - Usando este sitio web puede convertir djvu a pdf.
fuente
La forma más fácil: use gscan2pdf para importar el djvu, luego OCR con tesseract, y finalmente guárdelo como un pdf. El texto de OCR en el pdf puede ser ligeramente diferente del djvu original, y la conversión puede tardar un poco, pero este método es obvio y funciona.
fuente
Hice un guión de la respuesta de @ zetah.
Está disponible aquí: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b
fuente