PDF tiene texto confuso al copiar y pegar

23

Estoy tratando de copiar y pegar texto de un archivo PDF.

Sin embargo, cada vez que pego el texto original es un gran lío de caracteres confusos. El texto tiene el siguiente aspecto (este es solo un pequeño extracto):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Lo he probado en los lectores PDF de Adobe y Foxit. Hice un 'Guardar como texto' en Adobe Reader y el archivo de texto resultante es el mismo texto ilegible.

¿Alguna idea de cómo puedo sacar este texto sin problemas? (Aparte de la escritura manual ... hay mucho texto para extraer).

ngm
fuente
Pruebe algunas utilidades de lector de pantalla (que funciona con jpeg, haga una pantalla de impresión y listo) o aquí hay una forma diferente . (Solo una 'conjetura', no me muerdas por eso. Usé la primera forma en ese entonces. Espero que haya formas más convenientes).
Apache
Pregunta similar: superuser.com/questions/119393/…
Hugh Allen
También puedo confirmar este problema con OS X, al menos a partir de 10.8.2. Pasé un poco de tiempo revisando la estructura del archivo PDF, pero desafortunadamente no veo ninguna forma de reparar el daño. "PreFlight" de Acrobat Pro informa problemas con el archivo cuando lo compara con el estándar PDF / A, y el informe de Inventario muestra los glifos que se asignan con caracteres Unicode claramente incorrectos. He planteado un informe de error con Apple - ID 12655651. Informaré aquí si recibo alguna actualización.
KenD
Mught ser útil superuser.com/a/481510/153937
Ankit

Respuestas:

11

La forma más sencilla de evitar esto es abrir el archivo en una versión reciente de Google Chrome con el complemento de lectura de PDF incorporado . Luego puede usar la función de búsqueda de Chrome para buscar texto, y copiar y pegar funciona correctamente.

Me gustaría votar el comentario de pipitas sobre la respuesta de Shiki, pero no tengo la credibilidad :( El problema puede ser la codificación de fuente personalizada, no el cifrado . En Acrobat, haga clic en Archivo -> Propiedades, luego haga clic en la pestaña Fuentes para ver la codificación y la pestaña Seguridad para ver si está cifrado.

acatalept
fuente
De hecho, la codificación de fuente personalizada fue la culpable para mí. Sin embargo, Chrome no fue la solución. Resolví el problema parcialmente con Ghostscript regenerando un PDF desde el PS (tuve la suerte de tener la fuente del PS). Los grupos de caracteres a los que LaTeX aplica ligaduras (p. Ej. Ff, c, fi, etc.) no se muestran en el texto copiado del PDF, lo que requiere cierta edición al copiar / pegar.
Fuhrmanator
1
Mismo problema con Chrome
JinSnow
4

Descubrí este problema con los archivos PDF que creé, y creo que rastreé la fuente del problema: usar la Vista previa de Mac OS X para reducir el tamaño del archivo PDF.

Había creado algunos filtros de cuarzo con la utilidad Colorsync para comprimir imágenes en archivos PDF para reducir el tamaño general de los archivos PDF con imágenes. Tal como se describe aquí: http://www.macosxhints.com/article.php?story=20031106133852693

Descubrí que puedo copiar y pegar fácilmente el texto del archivo PDF original (sin comprimir), pero después de ejecutar ese PDF a través del filtro Reducir tamaño de archivo que creé, el PDF comprimido resultante no copia claramente pegar (sale como las cadenas que publicaste).

Sin embargo, al ejecutar ese mismo PDF original a través de la función Documento> Reducir tamaño de archivo de Adobe Acrobat Pro, el PDF comprimido resultante puede copiar y pegar texto con éxito.

Por lo tanto, esto no es totalmente útil en su caso, suponiendo que su archivo PDF se recibió de otra parte y no puede acceder a la versión original, si de hecho se comprimió de alguna manera. Pero esa podría ser la explicación: que el archivo fue maltratado de alguna manera en un esfuerzo por reducir el tamaño del archivo.

Esto podría ser útil para los creadores de contenido que se encuentran con problemas similares al copiar y pegar texto de archivos PDF. ¡Tenga cuidado al usar filtros OS X Quartz para reducir sus archivos PDF!

--editar-- También he notado este problema al combinar archivos PDF con Vista previa. Los dos PDF de origen se pueden copiar y pegar bien, pero al arrastrar una página de un archivo al otro archivo, y luego guardar el PDF combinado, el texto en el documento combinado no se puede copiar / pegar. Estos son dos documentos generados al mismo tiempo con Filemaker Pro 11 en Mac: no puedo imaginar que tengan codificaciones diferentes o algo así.

Daniel
fuente
Recibí algunos archivos pdf de un usuario de Mac OS. Seleccionar está bien, pero copiar y pegar solo le daría basura. Pruebe un montón de convertidores de PDF a Word, incluido googledoc, adobe save as text, todos dan texto indescifrable.
Tigr
Sospecho que el encogimiento de PDF de OS X es el culpable. ¿Alguien por ahí conoce algún medio para "deshacer" tal operación? ¡Gracias!
Tigr
Imprimí el archivo pdf en varias impresoras (virtuales) y obtuve archivos pdf inflados de tamaño 4x. El archivo impreso aparente es la imagen, no se puede seleccionar texto, mientras que el original se puede seleccionar (sin embargo).
Tigr
4

Hay otra manera muy fácil de hacer una solución :)

Simplemente imprima el documento usando CutePdf, la impresora Adobe 2 Pdf o cualquier cosa similar. La conclusión es que debe imprimir en formato pdf.

En muchos casos, eliminará fácilmente el problema.

Nick Olszanski
fuente
2

Solución que funcionó para mí:

  • Sube el documento a Google Drive / Docs
  • Google lo importará (a partir de 2013) como un PDF
  • Abra la vista PDF y elija Archivo > Abrir con > Documentos de Google
  • La exportación del documento demorará aproximadamente un minuto.

¡Los resultados no fueron perfectos, pero me dieron el 80% del camino y me proporcionaron suficiente texto para no tener que volver a escribir todo!

Gavin Miller
fuente
2

RESUELTO: (funcionó para mí en Windows 8, Acrobat XI, Office 2010)

Opción 1:

  1. Imprima desde Acrobat usando "Microsoft XPS Document Writer" La salida es: "su nombre de archivo.oxps"
  2. Abra "... oxps" con XPS Viewer. * (ver enlace de descarga en los comentarios a continuación)
  3. Imprima en PDF (Acrobat PDF o CutePDF), utilizando la resolución más alta (600 DPI).
  4. Abra con Acrobat y use la opción OCR (Imagen de búsqueda (exacta)).

¡BINGO!

Comentarios:

  • El uso de la resolución más alta y la imagen de búsqueda (exacta) guardará su texto sin perder su apariencia limpia. La baja resolución hará que su texto sea legible, pero de aspecto horrible.
  • Descargue Microsoft XPS (archivos): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Si no sabe qué es OCR, o dónde encontrar la imagen de búsqueda (exacta), o cómo imprimir usando "Microsoft XPS Document Writer", POR FAVOR, Googleelo por su cuenta, para sus mejores experiencias.

* Descargue solo si no tiene XPS instalado.

Opcion 2:

Haga lo mismo, pero guarde como imagen (png, tiff, ...), entonces deberá combinar todas las páginas en un archivo "PDF".

user210118
fuente
1
Los pasos 1, 2 y 3 parecen un largo camino cuando puede pasar al paso 3 Imprimir en PDF. (Por ejemplo, desde el interior de su lector de PDF). No es necesario desviarse a través de XPS.
Hennes
@Hennes Hacer el paso 4 produce el errorAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator
'texto renderizable' suena como algo que todavía necesita ser dibujado (renderizado). Posiblemente ya lo haya hecho y almacenado como un mapa de bits compatible con OCR si utiliza XPS. Pero eso es solo una suposición.
Hennes
1

Existe el riesgo de que la información no sea recuperable en absoluto. Los documentos PDF son esencialmente un documento sobre otro, un texto simple y el otro una imagen. Cuando copia y pega del documento, marca el texto mientras mira la imagen, pero lo que se copia en el portapapeles es la parte correspondiente de la parte de texto.

Dependiendo de la forma en que se crea el documento, la calidad y la disponibilidad de la parte de texto pueden diferir considerablemente. Si guarda un documento de procesador de textos en formato PDF, utilizando Acrobat, Word, un controlador de impresora PDF o cualquier otro método, la calidad generalmente será excelente, ya que el archivo de texto se puede crear a partir del texto del original. Algunos caracteres especiales pueden distorsionarse, pero el texto plano suele estar bien.

Sin embargo, si el documento se crea a partir de una imagen escaneada, la parte de texto generalmente se crea mediante el procesamiento OCR de la imagen, que puede producir resultados bastante lamentables, especialmente si el original no es óptimo para el propósito.

Un mal programa utilizado para crear el PDF, o la configuración incorrecta, también puede hacer que la parte del texto se vuelva completamente ilegible, ya que, perceptiblemente, algunos tipos de cifrado se ejecutan en el archivo después de que se ha creado.

La conclusión es que si la parte del texto del documento es realmente mala, no hay forma de mejorarla. Su mejor opción sería eliminar la parte del texto por completo y hacer que el programa rehaga el proceso de OCR. Creo que eso se puede hacer desde Acrobat, pero no estoy completamente seguro.

Emil
fuente
1

Una posible razón para esto podría ser que la incrustación de fuentes en el PDF estaba usando una codificación personalizada, que no se aplica correctamente al copiar texto del PDF.

Puede aplicar diferentes métodos para evitar escribir manualmente todo el contenido.

  1. ¿Intentó extraer el texto con una de las herramientas 'pdftotext.exe' descargables en toda la red? (Recomiendo el que se incluye en ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. La última versión de Acrobat Reader tiene una opción "Guardar como texto ..." . Esto no usa "copiar y pegar" (que le proporcionó el texto ilegible), pero probablemente usa las mismas rutinas de software que se usaron para representar el texto en la pantalla y, por lo tanto, puede producir resultados más útiles.
  3. Si '2.' no funciona, y si tiene acceso a Acrobat Professional: intente volver a destilar el PDF utilizando uno de los perfiles de Distiller de incrustación de fuentes.
  4. Si '3.' no funciona, a pesar de tener acceso a Acrobat Professional: intente volver a destilar el PDF, pero esta vez debe usar la opción 'imprimir como imagen' (disponible a través del botón 'Avanzado' en la esquina inferior izquierda de la impresión principal diálogo). Asegúrese de usar 600 ppp (aunque eso puede producir un archivo enorme). El PDF resultante se abre nuevamente en Acrobat Pro. Ahora aplique el algoritmo 'OCR' de Acrobat al archivo, lo que dará como resultado texto incrustado (no se usa para renderizar en pantalla en el Lector, pero se usa para buscar y resaltar cadenas). Ahora puede intentar nuevamente extraer el texto de este PDF, utilizando cualquiera de los métodos discutidos anteriormente.
Kurt Pfeifle
fuente
Para mí, usar Acrobat Pro XI para reimprimir a PDF, pero con "Imprimir como imagen" marcado (a 600 ppp) en el botón / sub-diálogo Avanzado ... desde el diálogo Imprimir ... - fue el truco. Entonces finalmente puede OCR el resultado correctamente . Ninguna de las otras soluciones mencionadas en esta página funcionó. Nota: para un documento grande, esto puede llevar un tiempo y el resultado PDF puede ser bastante grande.
Glenn Slayden
@GlennSlayden: Me alegra que mi consejo haya funcionado para ti ... ¿Qué le faltaba que creías que todavía no merecía un voto positivo?
Kurt Pfeifle
Um, hice el voto. Todavía se muestra para mí como '1'. Mi única queja fue que su respuesta estaba en la parte inferior y me llevó un tiempo encontrarla (no es su culpa ...)
Glenn Slayden
Ok, @GlennSlayden, entonces ese voto a favor debe haber sido hace muuucho tiempo (mucho antes de tu comentario anterior).
Kurt Pfeifle
No, voté "hace 12 horas" al mismo tiempo que escribí el comentario ... Todavía veo una flecha azul que (creo) significa que mi voto es (el) voto que está registrado actualmente. Y recuerdo que fue '0' antes de que votara anoche.
Glenn Slayden
1

Uno de mis usuarios acaba de informar el mismo problema (PDF creado con Distiller para Windows), que el texto copiado es solo texto ilegible y no podía buscar dentro de un documento. Probé en mi Mac y no encontré ningún problema. Resultó que utilicé la aplicación Vista previa de Apple, mientras que él usó Adobe Reader en su máquina Windows. Luego probé Adobe Reader en mi Mac y enfrenté el mismo efecto. A mí me parece que:

  • Adobe Reader está copiando y buscando en el texto guardado.

  • La Vista previa de Apple copiará y buscará después de aplicar el vector de codificación.

No puedo decir esto con seguridad, pero explicaría mi observación. Y, de hecho, permitiría realizar todo tipo de codificación al guardar archivos combinados / reducidos como se describe en otra publicación aquí: con la Vista previa, aún puede obtener el texto nuevamente.

Primero, pensé que sería más lógico codificar el subconjunto de fuentes incrustadas como entradas contiguas en lugar de dejar agujeros en el interior y usar la ubicación del carácter original. Pero luego me di cuenta de que al usar un vector de codificación para el subconjunto de fuentes con entradas originales, los caracteres que a menudo se usan pueden tener menos bits establecidos en 1 en su byte y pueden comprimirse de una mejor manera (puede disminuir la entrofia de texto general de esta manera).

Reuti
fuente
1

Al subirlo a Google Docs y al usar la opción Ver> HTML sin formato , el texto copiable del texto es correcto en alrededor del 80% y faltan algunos espacios.

Este hilo con respuesta aceptada al mismo problema explica esto con un ejemplo de trabajo.

revs Teqchiqe
fuente
1

No he probado la opción Google Docs, ya que todavía no es compatible con mi oficina. Sin embargo, al imprimir el archivo en "ScanSoft PDF Create!" desde "Acrobat 9" (imprime el archivo completo en la imagen) y abriendo el archivo impreso en "Nuance PDF Converter" (me preguntó si quería hacer que el archivo de imagen se pueda buscar y editar, lo cual opté), pude tengo un documento de Word que puedo copiar y pegar fácilmente. Sin embargo, no es perfecto con solo alrededor del 80-90% de precisión. Pero bueno, todavía tiene el archivo PDF original para comparar y compensar aquellas partes que simplemente no se pueden arreglar. Ahorra tiempo al escribir todo. Mi 2c.

Jhonrie
fuente
0

Hice algunos PDF de texto editable con una versión anterior de Scansoft PDF Converter para Windows XP, y luego combiné las páginas en el programa Vista previa de Mac. Para cada una de las páginas separadas, podría buscar, copiar y exportar texto correctamente desde Adobe Reader en la Mac. Cuando se combinaron con Vista previa y se guardaron como un solo archivo, todos se veían bien en la pantalla, pero solo algunos pasajes se podían buscar / exportar correctamente. Ese problema me trajo aquí.

Las publicaciones aquí me dieron algunos buenos consejos (¡gracias!). Miré las propiedades del archivo para las fuentes. Los archivos de una sola página de Win XP (donde todo está bien) decían que la codificación era ANSI. El archivo combinado en Vista previa (donde el texto copiado es ilegible) mostró la codificación de la mayoría de las fuentes como "Incorporado" con algunas como "Romano".

La solución a mi problema estaba siempre bajo mi nariz: el programa Scansoft en sí mismo puede combinar archivos. Cuando utilicé el combinador de Scansoft y abrí el archivo en la Mac, todas las fuentes se mostraban codificadas por ANSI y todo el texto exportado / copiado perfectamente. Por qué no los combiné en PDF Converter en primer lugar, no lo sé. Gracias carteles!

Lo mismo es cierto al abrir los archivos en un sistema Linux.

Sé que esto no explica los problemas exclusivos de Windows, a menos que el PDF tenga orígenes mixtos similares.

Jimbo
fuente