¿Cómo puedo alinear y recortar archivos PDF creados a partir de páginas escaneadas * automáticamente *? [duplicar]

13

Posible duplicado:
qué software gratuito puedo usar para alinear imágenes escaneadas

Tengo varios PDF compuestos por escaneos de páginas de libros. Los escaneos están hechos de dos páginas a la vez y algunos de estos escaneos están sesgados, lo que hace que el texto aparezca ligeramente inclinado.

Estoy buscando una herramienta que me permita hacer una optimización automática al alinear los escaneos sin perder legibilidad. He encontrado que el software GPL Briss recorta los escaneos para tener una relación de página 1: 1 en lugar de 2: 1, pero no tengo ninguna herramienta para alinear las páginas.

Me topé con unpaper , otra herramienta de código abierto que parece perfecta para lo que quiero hacer, pero esa herramienta es solo Linux y no funciona en archivos PDF directamente.

Cualquier pista es apreciada.

Pietro M.
fuente
1
@random: ¿Por qué se ha cerrado esta pregunta? ¿Por qué este tema debería solicitar 'debate, argumentos, encuestas o discusión extendida'?
Kurt Pfeifle
1
"buscar una herramienta" es prácticamente una encuesta de servicios que lleva a una razón cerrada no constructiva @kur
aleatorio
1
@random: esta pregunta me llevó a investigar un poco sobre el tema, y ​​encontré algunas opciones interesantes para seguir. El más interesante es usar ImageMagick para esto, y parece sorprendentemente simple. Lamentablemente, su cierre de esto no me permite publicar mi respuesta.
Kurt Pfeifle
@random: ahora he editado un poco la pregunta. Esperemos que ahora sea más compatible con su sentido de "constructividad".
Kurt Pfeifle
@random: Ok, 'cerrar como duplicado' es más aceptable para mí en este caso.
Kurt Pfeifle

Respuestas:

9

Echa un vistazo a deskew . Es una herramienta de línea de comandos. La descarga * zip parece incluir binarios para Windows, MacOSX y Linux.

La licencia es MPL (Mozilla) o LPGL (GNU), lo que prefiera.

El único inconveniente para usted parece ser que no consume archivos PDF, solo imágenes PNG y TIFF (AFAICS). Eso significa que tendrá que configurar un flujo de trabajo de s.th. me gusta:

 PDF.orig -> PNG.orig -> PNG.deskewed -> PDF.deskewed

No lo he probado yo mismo (todavía), me encontré con el sitio web recientemente y lo marqué como favorito.

Kurt Pfeifle
fuente
deskewlogré corregir la distorsión relacionada con la rotación en mi prueba, pero desafortunadamente introdujo una delgada línea gris en la posición del borde de la imagen original. Para deshacerme del borde gris, recorté las imágenes con la -extentopción de mogrify. Solo probé en OS X, tal vez este mal comportamiento es específico de la plataforma.
Stefan Schmidt
deskewfunciona muy bien Mi flujo de trabajo es el siguiente: pdfimages -all <pdf> my_imagesjbig2 -s -p -v my_images* > outputpdf.py output > deskewed.pdfSi le molestan los bordes negros (resultado de la operación de alineación), podría ser necesario algún procesamiento con imagemagick , como lo sugiere @StefanSchmidt
Mr. Tao
5

Oh, déjame agregar otra respuesta. Acabo de recordar netpbm . No lo he usado en años, pero creo que debería darle una nueva mirada ...

netpbm es un kit de herramientas muy poderoso para la línea de comandos para manipular imágenes gráficas. Envía casi 300 herramientas separadas. Incluye convertidores para aproximadamente 100 formatos gráficos.

Y también tiene una herramienta de línea de comandos que puede rotar imágenes:

pnmrotate

Y tiene otra herramienta que intenta descubrir el ángulo de las imágenes rotadas:

pamtilt

pamtiltdevuelve un número flotante de su suposición de rotación de imagen. Por lo tanto, el desvío automático de las imágenes debe estar al alcance. Se podría escribir un script de shell para hacer eso. Requeriría diferentes pasos:

  1. Convierta la página PDF a un formato de imagen compatible con netpbm con la ayuda de Ghostscript.
  2. Úselo pamtiltpara descubrir automáticamente el ángulo de inclinación de la imagen.
  3. Use pnmrotatepara desviar la imagen.
  4. Vuelva a convertir la imagen a PDF.

Si me proporciona acceso a una pequeña muestra de sus archivos PDF, podría intentar crear un script de shell para lograr la hazaña.


(Me pregunto mucho que [netpbm] no parece tener una etiqueta aquí en el superusuario + stackoverflow).

Kurt Pfeifle
fuente