¿Cómo convertir un archivo PDF a un archivo impar?

32

Quiero convertir un .pdfarchivo en un .odtarchivo para poder convertirlo aún más en un .docarchivo. ¿Hay algún software / script que pueda hacer esto? Intenté copiar el contenido del .pdfarchivo y lo pegué en liberoffice writer; el formato no se conserva.

El documento es confidencial, por lo que preferiría no utilizar ningún servicio en línea para la conversión.

Cualquier ayuda es muy apreciada.

ankit
fuente
Relacionado (¡pero no un duplicado!): ¿Cómo convertir un odt a pdf?
Eliah Kagan el
1
Para preguntas específicas de LIBREOFFICE / OpenOffice, recomiendo ask.libreoffice.org
Bucic

Respuestas:

15

También me molestó la falta de un convertidor de PDF a ODT gratuito. Ni siquiera necesitaba nada complicado. Solo una herramienta que genera archivos ODT que luego puedo anotar en LibreOffice (por ejemplo, para completar formularios).

Sé cómo hacerlo manualmente, convirtiendo el documento PDF en archivos gráficos y luego importándolos a LibreOffice, pero eso se vuelve tedioso bastante rápido.

Entonces, finalmente escribí un pequeño script de shell que realiza todos los pasos necesarios automáticamente. Puede encontrarlo en https://github.com/gutschke/pdf2odt

Puede tomar cualquier cantidad de archivos PDF e imágenes como entrada y genera un archivo ODT que se puede abrir y editar en LibreOffice. Las imágenes aparecen como fondo de la página, por lo que puede escribir sobre ellas libremente. Cada imagen está asociada con su propio estilo de página. Tenga esto en cuenta al insertar saltos de página y ajuste el estilo de página según sea necesario.

Probé el script en Linux y Mac. Dado que solo necesita un puñado de herramientas razonablemente estándar, debería ser bastante portátil.

Gutschke
fuente
Este script hace capturas de pantalla de cada página y las traza en el formato de destino. Gracias por el guión Gutschke
Oliver
Lo había usado pdf2oohace unos años, pero parece que ahora produce archivos corruptos para LibreOffice. Este script hace eso y más, ¡gracias!
eacousineau
3
El script pdf2odt, desafortunadamente, se convierte a un formato de imagen que se utiliza como fondo ODT. No espere poder "editar" ninguno de los textos originales.
Richard Elkins
13

Puede echar un vistazo a PDF Utilities(poppler-utils a través de Synaptic o apt-get) que incluye pdftotext :

Poppler es una biblioteca de representación de PDF basada en el visor de PDF Xpdf.

Este paquete contiene utilidades de línea de comandos (basadas en Poppler) para obtener información de documentos PDF, convertirlos a otros formatos o manipularlos:
* pdfdetach - enumera o extrae archivos incrustados (archivos adjuntos)
* pdffonts - analizador de fuentes
* pdfimages - extractor de imágenes
* pdfinfo - información del documento
* pdfseparate - herramienta de extracción de páginas
* pdftocairo - PDF a PNG / JPEG / PDF / PS / EPS / SVG convertidor utilizando Cairo
* pdftohtml - PDF a HTML convertidor
* pdftoppm - PDF a PPM / PNG / JPEG image converter
* pdftops - conversor de PDF a PostScript (PS)
* pdftotext - extracción de texto
* pdfunite - herramienta de fusión de documentos

Por supuesto, el éxito dependerá de cómo se generó el archivo pdf. Si se obtiene lo que desea como un archivo de texto, que podría entonces excepto que como un archivo .odt.

Editar: Olvidé proporcionar la fuente de la cotización. Es de la pestaña de descripción en Synaptic paraPDF Utilities (based on Poppler).


fuente
3
De esta lista, pdftohtmldebe ser la mejor opción para la tarea, porque HTML puede llevar el formato. Entonces HTML podría convertirse a ODT o DOC.
imz - Ivan Zakharyaschev
10

LibreOffice es capaz de importar .pdfarchivos. Simplemente ábralo en una versión actual de LibreOffice para obtener mejores resultados. Sin embargo, abrirá el documento como un dibujo y podrá convertirlo solo a uno de los formatos de imagen admitidos, no como un documento de Writer.

Naturalmente, no se conserva todo el formato, pero al menos algunos.

juerga
fuente
1
Lo probé recientemente, y es horrible, no guarda un formato ni un poco. Además, hace que el texto sea ilegible en absoluto.
Hola Ángel
3

Si el paquete poppler-utils está instalado, la secuencia de comandos de Nautilus a continuación (que se colocará en la carpeta ~ / .gnome2 / nautilus-scripts como un archivo ejecutable) ayudará a convertir el archivo PDF a HTML (la opción "-i" se puede eliminar para incluir imágenes también), que luego se pueden abrir con LibreOffice Writer y guardar como ODT, aunque el éxito de la conversión de formato depende en gran medida de cómo se crea el PDF.

http://ubuntuone.com/6xI1afyu6QdQvgdCGn0kym

Sadi
fuente
Gracias por este útil script. Solo un pequeño comentario (de man pdftohtml): -noframes : generate no frames. Not supported in complex output mode.Entonces -noframesno tendrá ningún efecto con -cset.
Glutanimate
2
Gracias, he eliminado esta opción redundante de mi script ahora. Sería muy bueno un script de bash impulsado por zenity para proporcionar una interfaz gráfica de usuario para todas estas opciones ;-)
Sadi
#MHC, parece que esta información está mal; si no incluimos -noframes obtenemos archivos html separados para páginas pdf; así que lo inserté nuevamente en mi script.
Sadi
Eso es extraño. Debe haber un error en la documentación entonces. Cambiaré mi copia del script en consecuencia. ¡Gracias por el aviso!
Glutanimate
3

Prueba Calibre. Se convierte a html y luego a otros formatos. Hizo un trabajo bastante bueno en un archivo grande (183 páginas) que de otro modo habría tenido que imprimir.

En mi caso, lo convertí en un epub, pero por diversión lo convertí en un .docx que resultó muy bien.

Christopher
fuente