Cuando copio texto de un archivo PDF y lo introduzco en un editor de texto, termina siendo destrozado de varias maneras. El formato como negrita y cursiva se pierde; los saltos de línea suaves dentro de un párrafo de texto se convierten en saltos de línea duras; los guiones para separar una palabra en dos líneas se conservan incluso cuando no deberían serlo; y las comillas simples y dobles se reemplazan con? señales.
Idealmente, me gustaría poder copiar texto de un PDF y convertir el formato a códigos HTML, "comillas inteligentes" convertidas a "y", y saltos de línea realizados correctamente. ¿Hay alguna forma de hacerlo?
Respuestas:
En primer lugar, debes entender qué es un PDF. Los PDF están diseñados para imitar una página impresa, y están diseñados solo como formato de salida, no como formato de entrada. Un PDF es básicamente un mapa que contiene la ubicación exacta de los caracteres (letras individuales o signos de puntuación, etc.) o imágenes. En la mayoría de los casos , un PDF ni siquiera almacena información sobre dónde termina una palabra y comienza otra, y mucho menos cosas como pausas suaves frente a pausas duras para las terminaciones de párrafo.
(Algunos PDF recientes almacenan información sobre estas cosas, pero esa es una nueva tecnología, y sería una suerte encontrar PDF como ese. Incluso si lo hiciera, su visor de PDF podría no saberlo).
De todos modos, depende de su software implementar algún tipo de "inteligencia artificial" para extraer simplemente de las ubicaciones de los caracteres individuales qué es una palabra, qué es un párrafo, etc. Un software diferente lo hará mejor que otros, y también dependerá de cómo se hizo el PDF. En cualquier caso, nunca debe esperar resultados perfectos. Tener el PDF de salida no es lo mismo que tener el documento fuente. Mucho mejor tratar de obtener eso si puedes.
La solución estándar para su tipo de problema es utilizar Adobe Acrobat Professional (el costoso, no el lector gratuito) para convertir el PDF a HTML. Incluso eso no va a obtener resultados perfectos.
Existe un software gratuito que se puede utilizar para extraer texto de archivos PDF con algunos de los formatos intactos, pero de nuevo, no espere resultados perfectos. Consulte, por ejemplo, calibre (que puede convertir a formato RTF), pdftohtml / pdfreflow o el procesador de textos AbiWord (con todos los complementos de importación / exportación habilitados). También hay un complemento de importación de PDF para OpenOffice.
Pero no esperes la perfección con ninguno de estos resultados. Vas contra la corriente aquí. PDF simplemente no se entiende como un formato de entrada editable.
fuente
Otra opción es descargar y comenzar a usar el visor de pdf gratuito, Foxit (es bueno). Luego puede 'Guardar como' y elegir .txt para convertirlo en un archivo de texto. Eso preservará todo el formato. No sé si puedes hacer lo mismo en Adobe porque dejé de usarlo hace un tiempo cuando me convertí a Foxit.
fuente
Hay una muy buena herramienta en línea llamada Sej-da . Sus ofertas con la manipulación avanzada de PDF. No hay software para descargar. Como se trata de una nueva herramienta en línea, actualmente todavía está en versión Beta. Le permite extraer texto de un PDF, así como proporcionar una gran cantidad de otras funcionalidades de PDF
http://www.sejda.com/
El 14 de noviembre de 2012 se realizó una breve revisión en video de las funciones sejda por la Revisión 3, que se puede encontrar aquí:
http://revision3.com/tzdaily/sejda-online-pdf
fuente
Abra su archivo PDF con un navegador (se prueban Google Chrome y Firefox) y luego copie el texto allí.
fuente
Puede usar Adobe Acrobat Pro para esto.
Para tablas: con Acrobat 9/10 había una función de tablas seleccionadas. Con Acrobat X puede hacer clic en Guardar como> Hoja de cálculo> Excel. Incluso concatena páginas en una larga hoja de cálculo. Característica impresionante
Para texto: existe una característica similar para exportar a MS Word. Guardar como> Word> Word Doc.
Fuentes:
fuente
Foxit alternará entre mostrar el archivo original como PDF normal o como texto presionando Ctrl + 6 (Con un pequeño toqueteo con el nivel de zoom del modo de texto no hay mucho salto en la posición de ida y vuelta entre la lectura y la copia)
fuente
Esto me pareció muy útil ( Eliminar saltos de línea ):
Aquí hay un truco útil para resolver esto rápidamente sin tener que eliminar todos los saltos de línea manualmente. Básicamente, todo lo que hace es reemplazar automáticamente todos los saltos de línea no deseados con un solo espacio, haciendo que todo el texto se ejecute en un solo párrafo:
1- copia el texto que quieras del PDF.
2- pegar en un nuevo documento de Word.
3- haga clic en "editar" y luego "reemplazar"
4- asegúrate de estar en el campo "buscar qué"
5- haga clic en "más" y luego en "especial"
6- seleccione "marca de párrafo" (parte superior de la lista)
7- haga clic en el campo "reemplazar con"
8- presiona la barra espaciadora una vez
9- haga clic en "reemplazar todo"
10- haga clic en "ok" y luego cierre el cuadro "buscar y reemplazar".
fuente
Puede copiar desde adobe reader a MS Excel y formatear (tabla) de la manera que desee y luego copiar y pegar desde Excel. Esta solución funciona muy bien. No necesita comprar una costosa copia de adobe profesional.
fuente
Intenté guardar el texto y el formato de un pdf organizado en una tabla. En Acrobat Professional, me di cuenta de que hay una opción 'Guardar como' que permite guardar como documento de Excel. Esto funcionó bien para mis necesidades. También noté que también hay una opción para guardar el documento de Word. Aunque no lo intenté.
fuente