Estoy tratando de copiar y pegar texto de un archivo PDF.
Sin embargo, cada vez que pego el texto original es un gran lío de caracteres confusos. El texto tiene el siguiente aspecto (este es solo un pequeño extracto):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Lo he probado en los lectores PDF de Adobe y Foxit. Hice un 'Guardar como texto' en Adobe Reader y el archivo de texto resultante es el mismo texto ilegible.
¿Alguna idea de cómo puedo sacar este texto sin problemas? (Aparte de la escritura manual ... hay mucho texto para extraer).
Respuestas:
La forma más sencilla de evitar esto es abrir el archivo en una versión reciente de Google Chrome con el complemento de lectura de PDF incorporado . Luego puede usar la función de búsqueda de Chrome para buscar texto, y copiar y pegar funciona correctamente.
Me gustaría votar el comentario de pipitas sobre la respuesta de Shiki, pero no tengo la credibilidad :( El problema puede ser la codificación de fuente personalizada, no el cifrado . En Acrobat, haga clic en Archivo -> Propiedades, luego haga clic en la pestaña Fuentes para ver la codificación y la pestaña Seguridad para ver si está cifrado.
fuente
Descubrí este problema con los archivos PDF que creé, y creo que rastreé la fuente del problema: usar la Vista previa de Mac OS X para reducir el tamaño del archivo PDF.
Había creado algunos filtros de cuarzo con la utilidad Colorsync para comprimir imágenes en archivos PDF para reducir el tamaño general de los archivos PDF con imágenes. Tal como se describe aquí: http://www.macosxhints.com/article.php?story=20031106133852693
Descubrí que puedo copiar y pegar fácilmente el texto del archivo PDF original (sin comprimir), pero después de ejecutar ese PDF a través del filtro Reducir tamaño de archivo que creé, el PDF comprimido resultante no copia claramente pegar (sale como las cadenas que publicaste).
Sin embargo, al ejecutar ese mismo PDF original a través de la función Documento> Reducir tamaño de archivo de Adobe Acrobat Pro, el PDF comprimido resultante puede copiar y pegar texto con éxito.
Por lo tanto, esto no es totalmente útil en su caso, suponiendo que su archivo PDF se recibió de otra parte y no puede acceder a la versión original, si de hecho se comprimió de alguna manera. Pero esa podría ser la explicación: que el archivo fue maltratado de alguna manera en un esfuerzo por reducir el tamaño del archivo.
Esto podría ser útil para los creadores de contenido que se encuentran con problemas similares al copiar y pegar texto de archivos PDF. ¡Tenga cuidado al usar filtros OS X Quartz para reducir sus archivos PDF!
--editar-- También he notado este problema al combinar archivos PDF con Vista previa. Los dos PDF de origen se pueden copiar y pegar bien, pero al arrastrar una página de un archivo al otro archivo, y luego guardar el PDF combinado, el texto en el documento combinado no se puede copiar / pegar. Estos son dos documentos generados al mismo tiempo con Filemaker Pro 11 en Mac: no puedo imaginar que tengan codificaciones diferentes o algo así.
fuente
Hay otra manera muy fácil de hacer una solución :)
Simplemente imprima el documento usando CutePdf, la impresora Adobe 2 Pdf o cualquier cosa similar. La conclusión es que debe imprimir en formato pdf.
En muchos casos, eliminará fácilmente el problema.
fuente
Solución que funcionó para mí:
¡Los resultados no fueron perfectos, pero me dieron el 80% del camino y me proporcionaron suficiente texto para no tener que volver a escribir todo!
fuente
RESUELTO: (funcionó para mí en Windows 8, Acrobat XI, Office 2010)
Opción 1:
¡BINGO!
Comentarios:
* Descargue solo si no tiene XPS instalado.
Opcion 2:
Haga lo mismo, pero guarde como imagen (png, tiff, ...), entonces deberá combinar todas las páginas en un archivo "PDF".
fuente
Acrobat could not perform OCR on this page because: This page contains renderable text
Existe el riesgo de que la información no sea recuperable en absoluto. Los documentos PDF son esencialmente un documento sobre otro, un texto simple y el otro una imagen. Cuando copia y pega del documento, marca el texto mientras mira la imagen, pero lo que se copia en el portapapeles es la parte correspondiente de la parte de texto.
Dependiendo de la forma en que se crea el documento, la calidad y la disponibilidad de la parte de texto pueden diferir considerablemente. Si guarda un documento de procesador de textos en formato PDF, utilizando Acrobat, Word, un controlador de impresora PDF o cualquier otro método, la calidad generalmente será excelente, ya que el archivo de texto se puede crear a partir del texto del original. Algunos caracteres especiales pueden distorsionarse, pero el texto plano suele estar bien.
Sin embargo, si el documento se crea a partir de una imagen escaneada, la parte de texto generalmente se crea mediante el procesamiento OCR de la imagen, que puede producir resultados bastante lamentables, especialmente si el original no es óptimo para el propósito.
Un mal programa utilizado para crear el PDF, o la configuración incorrecta, también puede hacer que la parte del texto se vuelva completamente ilegible, ya que, perceptiblemente, algunos tipos de cifrado se ejecutan en el archivo después de que se ha creado.
La conclusión es que si la parte del texto del documento es realmente mala, no hay forma de mejorarla. Su mejor opción sería eliminar la parte del texto por completo y hacer que el programa rehaga el proceso de OCR. Creo que eso se puede hacer desde Acrobat, pero no estoy completamente seguro.
fuente
Una posible razón para esto podría ser que la incrustación de fuentes en el PDF estaba usando una codificación personalizada, que no se aplica correctamente al copiar texto del PDF.
Puede aplicar diferentes métodos para evitar escribir manualmente todo el contenido.
fuente
Uno de mis usuarios acaba de informar el mismo problema (PDF creado con Distiller para Windows), que el texto copiado es solo texto ilegible y no podía buscar dentro de un documento. Probé en mi Mac y no encontré ningún problema. Resultó que utilicé la aplicación Vista previa de Apple, mientras que él usó Adobe Reader en su máquina Windows. Luego probé Adobe Reader en mi Mac y enfrenté el mismo efecto. A mí me parece que:
Adobe Reader está copiando y buscando en el texto guardado.
La Vista previa de Apple copiará y buscará después de aplicar el vector de codificación.
No puedo decir esto con seguridad, pero explicaría mi observación. Y, de hecho, permitiría realizar todo tipo de codificación al guardar archivos combinados / reducidos como se describe en otra publicación aquí: con la Vista previa, aún puede obtener el texto nuevamente.
Primero, pensé que sería más lógico codificar el subconjunto de fuentes incrustadas como entradas contiguas en lugar de dejar agujeros en el interior y usar la ubicación del carácter original. Pero luego me di cuenta de que al usar un vector de codificación para el subconjunto de fuentes con entradas originales, los caracteres que a menudo se usan pueden tener menos bits establecidos en 1 en su byte y pueden comprimirse de una mejor manera (puede disminuir la entrofia de texto general de esta manera).
fuente
Al subirlo a Google Docs y al usar la opción Ver> HTML sin formato , el texto copiable del texto es correcto en alrededor del 80% y faltan algunos espacios.
Este hilo con respuesta aceptada al mismo problema explica esto con un ejemplo de trabajo.
fuente
No he probado la opción Google Docs, ya que todavía no es compatible con mi oficina. Sin embargo, al imprimir el archivo en "ScanSoft PDF Create!" desde "Acrobat 9" (imprime el archivo completo en la imagen) y abriendo el archivo impreso en "Nuance PDF Converter" (me preguntó si quería hacer que el archivo de imagen se pueda buscar y editar, lo cual opté), pude tengo un documento de Word que puedo copiar y pegar fácilmente. Sin embargo, no es perfecto con solo alrededor del 80-90% de precisión. Pero bueno, todavía tiene el archivo PDF original para comparar y compensar aquellas partes que simplemente no se pueden arreglar. Ahorra tiempo al escribir todo. Mi 2c.
fuente
Hice algunos PDF de texto editable con una versión anterior de Scansoft PDF Converter para Windows XP, y luego combiné las páginas en el programa Vista previa de Mac. Para cada una de las páginas separadas, podría buscar, copiar y exportar texto correctamente desde Adobe Reader en la Mac. Cuando se combinaron con Vista previa y se guardaron como un solo archivo, todos se veían bien en la pantalla, pero solo algunos pasajes se podían buscar / exportar correctamente. Ese problema me trajo aquí.
Las publicaciones aquí me dieron algunos buenos consejos (¡gracias!). Miré las propiedades del archivo para las fuentes. Los archivos de una sola página de Win XP (donde todo está bien) decían que la codificación era ANSI. El archivo combinado en Vista previa (donde el texto copiado es ilegible) mostró la codificación de la mayoría de las fuentes como "Incorporado" con algunas como "Romano".
La solución a mi problema estaba siempre bajo mi nariz: el programa Scansoft en sí mismo puede combinar archivos. Cuando utilicé el combinador de Scansoft y abrí el archivo en la Mac, todas las fuentes se mostraban codificadas por ANSI y todo el texto exportado / copiado perfectamente. Por qué no los combiné en PDF Converter en primer lugar, no lo sé. Gracias carteles!
Lo mismo es cierto al abrir los archivos en un sistema Linux.
Sé que esto no explica los problemas exclusivos de Windows, a menos que el PDF tenga orígenes mixtos similares.
fuente