¿Cómo puedo convertir imágenes escaneadas como PDF en un archivo PDF con capacidad de búsqueda? [cerrado]

19

Tengo un PDF de un libro escaneado.

Estoy buscando un software gratuito que realice OCR y luego brinde una opción para guardarlo como PDF o documento nuevamente.

¿Hay uno?

slhck
fuente
¿Quieres decir que quieres convertir las imágenes del pdf a texto?
DaveParillo el
Sí, pero no quiero un archivo txt como salida. Quiero ver exactamente el mismo pdf pero con la opción de presionar Ctrl + F y marcar palabras, etc.
tendrá dificultades para convertir este PDF sin perder el formato y el estilo del texto. Todavía tengo que encontrar el software OCR capaz de preservar adecuadamente un documento de las imágenes escaneadas. prepararse para el trabajo de burro (por ejemplo, corrección de pruebas, etc.) :)

Respuestas:

5

Puede descargar la versión de prueba de 30 días de Adobe Acrobat Pro y usar la función 'Reconocimiento de texto OCR' ('Documento> Reconocimiento de texto OCR> Reconocer texto usando OCR ...'). En el cuadro de diálogo de configuración, elija 'Imagen de búsqueda' como estilo de salida. Esto mantendrá la imagen de la página pero incrustará el texto OCR para que el documento pueda buscarse y permita que el texto sea seleccionado, copiado y pegado.

Después de ejecutar el OCR, deberá confirmar o corregir las palabras de que el OCR no está seguro sobre el uso de las funciones 'Buscar sospechosos de OCR'.

pelmas
fuente
Aunque Adobe no es gratuito, es, con mucho, la solución de OCR más capaz que existe
James Healy,
4

Si tiene una cuenta de Google, Google Docs ahora incluye la funcionalidad para cargar un archivo PDF y realizar OCR en él.

Lo he intentado yo mismo y es una puñalada justa en un PDF bien formateado.

El formato está prácticamente destruido, pero el texto parece sobrevivir.

Richard Lucas
fuente
4

Los siguientes productos se encontraron en Internet, pero no los he usado.

OCR en línea

Terminal OCR

OCR Terminal es un servicio de OCR en línea que realiza reconocimiento óptico de caracteres (OCR) en sus imágenes escaneadas y archivos PDF y los convierte en documentos editables y con capacidad de búsqueda de texto.

OCR gratis

Free-OCR.com es una herramienta gratuita en línea de reconocimiento óptico de caracteres (OCR). Puede usar esto para realizar OCR en cualquier imagen que proporcione.
Este servicio es gratuito, no es necesario registrarse. Tampoco necesitamos su dirección de correo electrónico.
Solo sube tus archivos de imagen. Free-OCR toma JPG, GIF, TIFF BMP o PDF ( solo la primera página ). La única restricción es que las imágenes no deben ser mayores de 2 MB, no más anchas ni mayores de 5000 píxeles y hay un límite de 10 cargas de imágenes por hora.

Maestro Recognition Server es comercial, pero tiene una demostración de prueba en línea.

Software libre

FreeOCR : solo para imágenes.

FreeOCR es un programa de escaneo y OCR que incluye el motor de OCR gratuito Tesseract, también conocido como Tesseract GUI. Incluye un instalador de Windows y es muy simple de usar y admite tiff de varias páginas, documentos de fax, así como la mayoría de los tipos de imágenes, incluidos los Tiff comprimidos que el motor Tesseract por sí solo no puede leer. Ahora tiene escaneo Twain.

pdfsandwich - pdf -> convertidor de pdf.

pdfsandwich es una herramienta de línea de comandos para libros o revistas escaneadas con OCR. Es capaz de reconocer el diseño de la página incluso para texto de varias columnas.

Esencialmente, pdfsandwich es un script de envoltura que llama a los siguientes binarios: convert, cuneiform, gs y hocr2pdf. Se sabe que se ejecuta en sistemas Unix y se ha probado en Linux y MacOS X. Admite el procesamiento paralelo en sistemas multiprocesador.

harrymc
fuente
Acabo de usar pdfsandwich. ¡Funciona y es gratis! :) Esto sin duda ayudará en mi tesis, ¡gracias!
Eddy
Parece que pdfsandwich se ha movido? tobias-elze.de/pdfsandwich
pioto
@pioto: No fui yo quien agregó pdfsandwich arriba, pero arreglé el enlace como usted sugirió.
harrymc
2

Cuneiforme + hocr2pdf + Ghostscript : una solución de código abierto de bricolaje.

Publiqué una respuesta que describe una solución que involucra una versión del sistema de OCR Cuneiform de código abierto y hocr2pdf junto con Ghostscript para unir las páginas PDF.

Eso fue específicamente para Linux, pero también puede obtener Cuneiform y Ghostscript para Windows. Sin embargo, no estoy seguro acerca de hocr2pdf o un equivalente.

Jukka Matilainen
fuente
1

Aquí hay un método muy extraño, que consiste en dejar que Google lo indexe y OCR en un sitio web, y luego lo recupere.

jtbandes
fuente
Sí, vi que también ... :) De hecho extraño que podría terminar haciendo que ...
0

Instala Imagemagick . Abra una ventana o terminal cmd:

convert myfile.pdf myfile-%02d.jpg

La salida será 1 archivo jpg para cada página en su pdf, myfile-00.jpg, myfile-01.jpg, etc.

Pase cada imagen a través de un programa ocr. No tengo mucha experiencia con esto, pero parece que hay muchas opciones.

Convierta cada página de texto nuevamente en pdf. Podrías hacer esto nuevamente con imagemagick, pero también hay otras formas:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
fuente
0

Su solicitud parece ser una solución complicada para el problema, aunque es posible que no entienda el problema correctamente. De todos modos:

¿Por qué no obtener un escritor PDF que le permita ingresar los datos directamente en la página pdf?

Xavierjazz
fuente
0

Pruebe PDFCubed.com Nada que instalar, todo se hace en línea. Puede enviar sus documentos para su procesamiento a través de la web, correo electrónico o dropbox. Los archivos PDF y TIF escaneados se convierten en archivos PDF de texto de búsqueda y luego se pueden recuperar a través de la web, el correo electrónico o Dropbox.

rlangner
fuente