He escaneado alrededor de 80 páginas en pdf en escala de grises (formato de imagen). El tamaño final del archivo es de aproximadamente 70 MB, que es muy grande.
Ahora estoy buscando un método para convertir el archivo PDF basado en imágenes en escala de grises en un simple archivo PDF basado en texto en blanco y negro.
He hecho muchos intentos gs
pero sin éxito (solo un pequeño porcentaje de recuperación). Si algún experto tiene alguna idea, hágamelo saber.
Respuestas:
gImageReader es un simple front-end GTK + para
tesseract-ocr
.perdón por el texto alemán
fuente
sudo apt-get install tesseract-ocr-[lang]
, reemplazandolang
por el código de idioma, comodeu
por Deutsch,por
para el portugués, etc.Puedes probar pdfocr:
Para ejecutar la sintaxis es
donde
input.pdf
es el nombre del archivo de entrada youtput.pdf
el archivo de salida.Por defecto usa Tesseract. Para instalarlo:
pdfocr crea una capa de texto incrustado.
fuente
Carga tesseract y otros en la instalación. Es una solución fácil de un paso y puede ser programada. Se puede usar
hocr2pdf
para crear un PDF de texto plano, pero aún no está listo para el horario estelar ... El valor predeterminado utiliza tesseract y crea un pdf "emparedado": imagen + texto debajo.La imagen incrustada se puede eliminar con comandos como:
pero el texto está oculto, por lo que parece una página en blanco.
Cargar el PDF en
LibreOffice Draw
expone el texto y la imagen se puede eliminar manualmente.fuente
not authorized
erroresidentify-im6.q16
como este: imagemagick - convert: no autorizadoaaaa
@ error / constitut.c / ReadImage / 453 - Desbordamiento de pilaPara la interfaz gráfica sugerida por @AB en ubuntu 14.04 debe seguir:
ocr tesseract en ubuntu 14.04
o de todos modos, agregue a la lista del repositorio:
antes de que esto funcione:
fuente
Puede intentar reducir shrinkpdf para reducir el tamaño del archivo y luego ocr.sh para agregar la capa de texto.
fuente
En su archivo pdf, haga clic derecho y guarde cada página como imagen (o encuentre alguna herramienta que haga todas las páginas automáticamente)
Abra el centro de software de Ubuntu. Busca tesseract. Esto encontrará YAGF que debes instalar. En YAGF, haga clic en Archivo -> Abrir imagen y cargue su imagen. Luego haga clic en Archivo -> Reconocer.
Tenía 100% de precisión en mi primera prueba.
fuente