Tengo un PDF de un libro escaneado.
Estoy buscando un software gratuito que realice OCR y luego brinde una opción para guardarlo como PDF o documento nuevamente.
¿Hay uno?
software-rec
pdf
ocr
slhck
fuente
fuente
Respuestas:
Puede descargar la versión de prueba de 30 días de Adobe Acrobat Pro y usar la función 'Reconocimiento de texto OCR' ('Documento> Reconocimiento de texto OCR> Reconocer texto usando OCR ...'). En el cuadro de diálogo de configuración, elija 'Imagen de búsqueda' como estilo de salida. Esto mantendrá la imagen de la página pero incrustará el texto OCR para que el documento pueda buscarse y permita que el texto sea seleccionado, copiado y pegado.
Después de ejecutar el OCR, deberá confirmar o corregir las palabras de que el OCR no está seguro sobre el uso de las funciones 'Buscar sospechosos de OCR'.
fuente
Si tiene una cuenta de Google, Google Docs ahora incluye la funcionalidad para cargar un archivo PDF y realizar OCR en él.
Lo he intentado yo mismo y es una puñalada justa en un PDF bien formateado.
El formato está prácticamente destruido, pero el texto parece sobrevivir.
fuente
Los siguientes productos se encontraron en Internet, pero no los he usado.
OCR en línea
Terminal OCR
OCR gratis
Maestro Recognition Server es comercial, pero tiene una demostración de prueba en línea.
Software libre
FreeOCR : solo para imágenes.
pdfsandwich - pdf -> convertidor de pdf.
fuente
Cuneiforme + hocr2pdf + Ghostscript : una solución de código abierto de bricolaje.
Publiqué una respuesta que describe una solución que involucra una versión del sistema de OCR Cuneiform de código abierto y hocr2pdf junto con Ghostscript para unir las páginas PDF.
Eso fue específicamente para Linux, pero también puede obtener Cuneiform y Ghostscript para Windows. Sin embargo, no estoy seguro acerca de hocr2pdf o un equivalente.
fuente
Aquí hay un método muy extraño, que consiste en dejar que Google lo indexe y OCR en un sitio web, y luego lo recupere.
fuente
Instala Imagemagick . Abra una ventana o terminal cmd:
La salida será 1 archivo jpg para cada página en su pdf, myfile-00.jpg, myfile-01.jpg, etc.
Pase cada imagen a través de un programa ocr. No tengo mucha experiencia con esto, pero parece que hay muchas opciones.
Convierta cada página de texto nuevamente en pdf. Podrías hacer esto nuevamente con imagemagick, pero también hay otras formas:
fuente
Su solicitud parece ser una solución complicada para el problema, aunque es posible que no entienda el problema correctamente. De todos modos:
¿Por qué no obtener un escritor PDF que le permita ingresar los datos directamente en la página pdf?
fuente
Pruebe PDFCubed.com Nada que instalar, todo se hace en línea. Puede enviar sus documentos para su procesamiento a través de la web, correo electrónico o dropbox. Los archivos PDF y TIF escaneados se convierten en archivos PDF de texto de búsqueda y luego se pueden recuperar a través de la web, el correo electrónico o Dropbox.
fuente