Hoy recibí un PDF de nuestro proveedor y contenía varias páginas impresas y escaneadas con firmas, etc. Lo abrí en Acrobat Reader DC. Pero para mi sorpresa, el texto de las imágenes evidentemente escaneadas podría seleccionarse y copiarse como texto. Ver la captura de pantalla:
Evidentemente, hay algo de OCR detrás de esto ya que el texto copiado contiene errores. Pero, ¿cómo es esto posible? Nunca he visto esto antes, ¿cómo se puede crear esto?
pdf
adobe-acrobat
adobe-reader
ocr
Vojtěch Dohnal
fuente
fuente
Respuestas:
Esto (al contrario de algunas otras respuestas aquí) probablemente no tenga nada que ver con Acrobat.
La mayoría de los escáneres de documentos profesionales (¿todos?) Y la mayoría de los semiprofesionales realizarán OCR automáticamente cuando seleccione "Guardar como PDF" y marque la casilla de verificación "búsqueda" en la configuración. Los modelos más baratos de "grado de consumidor" harán el OCR en la PC adjunta, los escáneres de red típicos lo hacen internamente.
La palabra "buscable" significa nada más y nada menos que el escáner realizará OCR, luego generará una página con los mapas de bits escaneados dentro y los superpondrá con caracteres invisibles del OCR, cada uno colocado sobre el carácter respectivo en el mapa de bits.
De esa manera, puede buscar, y también seleccionar, copiar y pegar el "mapa de bits" como por arte de magia. Sin embargo, no es magia en absoluto. En realidad, solo estás copiando texto invisible.
El escáner también puede hacer algo de magia adicional, como componer la imagen grande de muchos mosaicos pequeños que también se reutilizan. Esto da como resultado un tamaño de documento mucho más pequeño de lo que realmente sería posible, pero también puede dar lugar a sorpresas divertidas (¡no tan divertidas si le pasan a usted!) Como Xerox altera la historia de sus facturas , irónicamente, incluso cuando no se realiza OCR, dependiendo en el firmware
fuente
Básicamente, un programa realiza OCR en el archivo de entrada y luego coloca una capa invisible de texto sobre la imagen. Alternativamente, también podría colocar una capa visible de texto debajo de la imagen, dando el mismo efecto.
Cuando selecciona algo, la imagen no importa porque se selecciona la capa de texto.
Hay varias formas Dado que Acrobat ya ha sido sugerido, agregaré algunas opciones gratuitas (y afortunadamente no está obligado a tener Windows para usarlas).
PDF-XChange Viewer
Este es un programa nativo de Windows de Tracker Software . La versión gratuita funciona bien con Wine si usa la edición de 32 bits en un prefijo de 32 bits, por lo tanto , puede usarla en Windows, macOS y Linux. En los últimos dos casos, necesitaría PlayOnMac o PlayOnLinux respectivamente.
Aquí hay una foto de esta respuesta que dejé en Ask Ubuntu:
OCRmyPDF
Este es un programa multiplataforma escrito en Python , basado en Ghostscript, Tesseract y Unpaper. De los documentos:
Se puede instalar fácilmente en derivados de Debian y Ubuntu:
O en macOS:
En Windows, necesitaría usar la imagen Docker. Consulte los documentos oficiales para más detalles.
El uso es muy simple y le sugiero que utilice los parámetros opcionales
-d
(desalineación) y-c
(limpieza) para obtener mejores resultados. Enderezará cada página y limpiará pequeños puntos / imperfecciones antes de ejecutar el proceso de OCR.Puede (y debe) proporcionar el idioma
-l
.Aquí hay un ejemplo tomado de este documento sesgado escrito en italiano:
El comando que usé fue:
Herramientas en línea
Hay algunas herramientas en línea que hacen lo mismo. Cabe destacar que PDF24 aloja una versión gratuita basada en la web de OCRmyPDF que se puede usar sin limitaciones.
Ver también:
fuente
Esto posiblemente se deba a una función de Acrobat OCR :
fuente
Desde el sitio web de Adobe
fuente