Código abierto preferido, pero no necesario.
Tengo Adobe Acrobat 8, y realmente me gusta la función OCR que esencialmente puede poner una capa invisible de texto OCR en la parte superior de un documento escaneado. Por lo tanto, lo que ve en la pantalla es el documento escaneado original, pero se puede buscar el resultado.
Lo que estoy buscando es una forma de automatizar este proceso. Actualmente tengo algunos scripts que utilizamos para procesar y archivar archivos escaneados, y estoy buscando algo que pueda conectar directamente a este proceso por lotes para hacer OCR de una manera similar a lo que puedo hacer con Acrobat.
Todas las sugerencias son bienvenidas, gracias!
pdf
document-management
ocr
Boden
fuente
fuente
Respuestas:
Tengo esto implementado en un proyecto de archivo de documentos de la empresa. El archivo escaneado es un archivo tif (página única). Luego, usando Cuneiform para crear un archivo hocr del tif único. Luego, usando hocr2pdf para generar el archivo PDF. Si hay varias páginas escaneadas, uso gs para combinar los PDF en un solo documento PDF. Funciona realmente bien, OCR es lo suficientemente bueno para nuestras necesidades y se puede buscar en cualquier visor de PDF.
fuente
¿Has mirado en WatchOCR? Puede descargarlo desde http://www.watchocr.com. Es un servidor de OCR gratuito y de código abierto que transforma archivos PDF de imagen solamente en archivos PDF con capacidad de búsqueda de texto desde una carpeta vigilada o recurso compartido de red.
fuente
Me gustan los sonidos de la respuesta de xeon, aunque OCRopus suena muy divertido.
fuente