Algunos archivos PDF producen basura (" mojibake ") cuando copia el texto (aunque se muestren bien). Esto hace que sea imposible buscarlos (lo que sea que busque no coincidirá con la basura).
¿Alguien tiene una solución fácil?
Ejemplos:
- TEAC TV manual EU2816STF (produce los problemas anteriores en Adobe Reader tanto en Windows como en Mac, pero funciona bien en Vista previa en una Mac)
- Manual de Leadtek Winfast PVR2 (enlace FTP; también tiene problemas en Vista previa en una Mac)
- Manual de la tarjeta sintonizadora de TV Swann (enlace FTP; también tiene problemas en Vista previa en una Mac)
- Acuerdo de licencia de Phonedisc (del ahora difunto DTMS )
- Revisión trimestral de fondos de Macquarie IFP
- BAN-TACS Small Business Booklet (versión archivada)
- Folleto de Easterfest 2004 (también del archivo)
Estoy usando Adobe Reader (última versión) para Windows, ¿tal vez un visor alternativo podría ayudar? Estoy buscando una solución gratuita para Windows. El código abierto sería aún mejor.
Editar: Los documentos para la herramienta de texto de extracto multivalente tienen un buen resumen de por qué las cosas pueden salir mal, incluyendo: (documento citado modificado por última vez en enero de 2006)
- Es posible que el texto no tenga una asignación Unicode. Las fuentes PDF Tipo 3 a menudo no lo hacen, y TeX DVI tiene caracteres que no tienen equivalentes Unicode.
- La codificación Unicode puede tener errores. Open Office asigna algunos caracteres en el mismo Unicode, lo que resulta en la aparición y duplicación de letras aparentes.
Supongo que la solución final en estos casos sería OCR cada glifo en una fuente para descubrir qué carácter es realmente. Tenga en cuenta que esto sería más fácil que OCRing un documento escaneado ruidoso porque la forma exacta del glifo está disponible (a resolución infinita ya que es una imagen "vectorial").
fuente
clipbrd.exe
(ver mydigitallife.info/2008/11/06/… ) puede ver lo que hay en el portapapeles. ¿Qué te da eso?Respuestas:
Foxit Reader , tal vez?
Por si sirve de algo, acabo de comprobar el PDF se ha vinculado a con Safari 4.0.4 en Mac OS X 10.6.2 y si bien no es cierta Engrish , el PDF se hace sin problemas y sin ninguna "basura" en pantalla. ¿Quizás tenga problemas con Unicode (más común en Windows que en Mac OS)?
fuente
La forma más sencilla de evitar esto es abrir el archivo en una versión reciente de Google Chrome con el complemento de lectura de PDF incorporado . Luego puede usar la función de búsqueda de Chrome para buscar texto, y copiar y pegar funciona correctamente.
fuente
Para el ejemplo del Manual de TV : el mismo problema en Adobe Reader 8.1.2 en una Mac, pero no hay problemas al usar la Vista previa de Mac para copiar o buscar texto. Además, enviarlo a una cuenta de Gmail y luego elegir "Ver" y luego "HTML sin formato" revela el texto. Pero a Adobe Reader no le gusta.
Sus propiedades de documento muestran "Codificación: Personalizada" para las fuentes. Otro documento muestra cosas como "Codificación: Ansi" o "Roman", y no tiene problemas ni en Vista previa ni Adobe Reader en una Mac:
Sin embargo, los ejemplos de Leadtek y Swann también presentan problemas en Vista previa en una Mac y en Gmail, y ambos muestran "Codificación: Identidad-H". La prueba de Phonedisc también falla, con "Codificación: Personalizada".
Confuso, y no consistente, pero en algún foro de Adobe encontré la siguiente explicación para otro ejemplo que muestra "Codificación: Personalizada" (énfasis mío):
Esto no explica por qué la Vista previa de Mac (y aparentemente también Infix) puede manejar algunos de los ejemplos cuando Adobe Reader falla, incluso con "Codificación: Personalizada". ¿Quizás Vista previa no tiene problemas cuando la fuente exacta está presente en la computadora? ¿O tal vez es solo adivinar una codificación, que funciona para algunos pero no para todos los documentos?
Cualquiera sea la causa: si pasar por Google Docs o Gmail no funciona, entonces quizás la solución más fácil (pero lejos de ser fácil) sea guardar como TIFF y luego hacer OCR . Servicios como Evernote podrían hacerlo sobre la marcha (hace OCR en imágenes; dudo que haga OCR en un PDF).
fuente
La descarga del archivo 1 falló para mí, el archivo 2 podría abrirlo con xpdf, un visor de PDF rápido y de código abierto. Supongo que no puede manejar formularios, pero para texto puro y gráfico, lo prefiero por su rápido tiempo de inicio.
fuente
Lamentablemente no se puede evitar. Los documentos PDF en realidad no contienen letras, pero contienen formas de letras. En otras palabras, en lugar de leer una carta y dibujarla en la pantalla, Adobe Reader como cualquier otra aplicación de lectura de PDF simplemente dibujaría los gráficos vectoriales codificados en el archivo.
Sin embargo, algunos lectores de PDF vienen con un software que permite analizar la forma y recuperar el texto mediante el reconocimiento de texto. Funciona igual que si escaneara un papel de texto impreso y utilizara un software como ABBYY FineReader para convertirlo de nuevo en texto, pero debido a la infinitamente alta calidad de los dibujos vectoriales, los resultados suelen ser mucho mejores que para los documentos escaneados.
Algunos documentos pueden protegerse para que no se conviertan en texto engañando a Adobe Reader. Por ejemplo, las letras se pueden dibujar en varias formas superpuestas de tal manera que visualmente se verían igual, mientras que el software de reconocimiento de texto no reconocería el texto. Su documento es un ejemplo de dicha protección.
Una forma sería imprimir el documento en una imagen y dejar que el software de reconocimiento de texto lo reconozca. Una resolución más alta para la imagen mejorará la calidad. Sin embargo, este método no es realmente útil.
fuente