¿Cómo puedo convertir fotos de documentos en papel en un documento escaneado?

44

¡Mi escáner se ha roto! Sin embargo, tengo una buena cámara, así que tomé algunas fotos de los documentos que quiero escanear ... Sin embargo, parecen fotos de papel, no documentos escaneados:

  • Las imágenes no son planas
  • La iluminación no es uniforme (sombras a medida que la página se deforma, etc.)
  • El texto obviamente no se procesa en texto PDF que se pueda copiar y pegar.

Simplemente no son adecuados para uso profesional, pero están cerca.

Estoy buscando algo (o método) que pueda hacer cualquiera o todo lo anterior para poder pasar de una cantidad de archivos JPG a un solo PDF [opcionalmente] anotado de todo, que está en el formato correcto (A4 típicamente).

¿Alguna sugerencia (salvo salir y comprar un nuevo escáner)?

Oli
fuente
1
En Android, la aplicación Google Drive puede hacer un poco de procesamiento y obtener un PDF de tamaño A4 a partir de un conjunto de imágenes (creando un nuevo "escaneo"): aplique B & W y un poco de enderezado (ambos en la aplicación, mientras creando) en él, y se ve principalmente un escaneo (de baja calidad). OCR es un problema más difícil.
muru
No conozco ningún software de Ubuntu, pero descarté mi escáner después de descubrir que hay aplicaciones en un teléfono móvil que en su mayoría hacen lo mismo. Es posible que desee ver la aplicación Genius Scan (para Android) o Scannable (para iPhone). Luego aplique pdfjoinpara coserlos juntos. Sin embargo, no hay OCR.
Jos
La razón por la que quiero hacer esto a través de fotos en lugar de una aplicación móvil es que mi dSLR es [literalmente] mil veces mejor que la cámara de mi teléfono. Y si no hay nada que haga esto de una vez, creo que puedo manejar el OCR yo mismo. Hay muchos proyectos de código abierto que hacen un buen trabajo.
Oli
Es posible que haya resucitado mi escáner con cinta adhesiva, tostadas y mermelada, por lo que la urgencia está apagada, pero creo que esto sigue siendo un problema interesante.
Oli
Oli , busqué en Google algunos ejemplos en Stackexchange como este tex.stackexchange.com/questions/94523/simulate-a-scanned-paper y este stackoverflow.com/questions/8955425/… simplemente no estoy seguro de haber respondido bien su pregunta;)
JoKeR

Respuestas:

46

Hay varias maneras de hacer eso. Aunque todas mis formas sugeridas tienen un problema, realmente no aplanarán tu imagen. Todavía se requeriría una imagen más o menos buena.

Una manera fácil es probar el software ScanTailor

sudo apt-get install scantailor 

Le lleva a través de 6 pasos para optimizar sus fotos. En el último paso, puede seleccionar la opción "Ecualizar iluminación", ¡esto le dará un aspecto limpio y agradable!


Personalmente, generalmente solo uso GIMP . Pero necesitas algunas habilidades básicas para alcanzar tu objetivo.

sudo apt-get install gimp 
  1. recortar la imagen de la manera deseada
  2. use la opción Colors-> Curvespara manipular la salida de color de la manera que desee ...

Ajuste las curvas de color para obtener una salida limpia y agradable.


Otro pequeño y agradable programa es gscan2pdf , donde también puedes cargar fotos y exportarlas como PDF. Incluso hay un enlace a GIMP para que pueda mejorar la foto con los pasos descritos anteriormente .

sudo apt-get install gscan2pdf 
Wittich
fuente
1
Nunca he visto ScanTailor antes. Parece ser casi perfecto, excepto que no puedo encontrar la manera de guardarlo como algo que quiero conservar (por ejemplo, PDF). ¿Algunas ideas?
Oli
PD: bienvenido a Ask Ubuntu y Stack Exchange.
Oli
1
@Oli la salida se guarda en la carpeta que selecciona al principio. Como veo ahora lo guarda como tiff. Entonces le gustaría ejecutar un convert file.tiff file.pdfen la consola.
con
2
Oh si, mi mal. Estoy usando varias páginas, así que las convertiré a png con find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;y luego las uniré pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png. Solo pienso en voz alta para cuando me olvide de cómo hacer todo esto :) Gracias de nuevo.
Oli
2
¡ScanTailor fue un descubrimiento! Por lo general, haría todo esto en Gimp o en una aplicación patentada como Gimp, pero el escaneo a medida solo tiene las características que necesito para convertir mis imágenes en imágenes escaneadas, eliminando todo el ruido :) Mucho más fácil que todas las curvas que solía muévete en Gimp. Muchas gracias !!!
Kostyantyn
20

Para generar una copia imprimible o un PDF a partir de una foto de la cámara de un documento, tenemos que convertir manualmente bastante para lograr una imagen similar a la salida de un escáner. La mayoría de estas conversiones se pueden hacer con Gimp.

  1. Intenta hacer lo mejor que puedas con la imagen original :

    • Elija una luz brillante para reducir el ruido de píxeles, pero para evitar reflexiones, sangrado o dispersión desigual de la luz, no use un flash a menos que tenga un equipo de flash de estudio.
    • Si es posible, elija iluminar la fuente desde al menos dos lados (arriba-abajo o derecha-izquierda)
    • Tome la foto desde una distancia mayor utilizando un teleobjetivo en lugar de una lente gran angular.
    • Use un trípode para evitar sacudir los artefactos.
    • Apunte la cámara ortogonal a la superficie de la fuente.
    • Incluya algo de espacio bordeando la fuente original.
  2. Considere la desaturación a escala de grises para un mejor contraste y eliminación de artefactos de píxeles coloreados.

    ingrese la descripción de la imagen aquí

  3. Ajuste el brillo y el contraste para que el presumiblemente fondo gris sea blanco y las letras negras se pongan negras.

    • Esto se puede hacer rápidamente con la herramienta Gimp Colors> Levels , donde podemos arrastrar el punto negro (izquierda) y el punto blanco (derecha) o elegir los puntos negro / blanco con el selector de color.

    ingrese la descripción de la imagen aquí

    • Las sombras en las esquinas dobladas no se pueden eliminar sin eliminar también partes del texto (ver 6.)
  4. Eliminar la distorsión del cojín?

    Dependiendo de la calidad de nuestra lente fotográfica y del nivel de zoom que hayamos usado, podemos tener algunos artefactos amortiguadores que conducen a la flexión de los bordes exteriores del documento. Hay complementos para eliminar también estos artefactos, pero podemos encontrar más rápido elegir un nivel de zoom de nuestra cámara donde solo sean mínimos. Después de recortar (5.) puede que ni siquiera los notemos más. Por lo tanto, eliminar los artefactos de amortiguación solo puede ser necesario en caso de que nuestra imagen de origen tenga muchas líneas rectas en las partes externas.

  5. Rotar y recortar o perspectiva transforman la imagen si es necesario.

    A diferencia de un escáner, nuestra cámara puede no obtener la fuente en paralelo a los bordes de la imagen. La herramienta Girar o Perspectiva Gimp nos dará una respuesta visual para poder rotar o ajustar la perspectiva de una imagen hasta que las líneas de texto estén en paralelo a la página.

    ingrese la descripción de la imagen aquí
    Herramienta de perspectiva en el lado derecho

Ahora podemos seleccionar el origen del documento con la herramienta de selección de rectángulo para recortar la imagen dentro del documento.

  1. Elimine las sombras no deseadas de los dobleces, pliegues o artefactos de viñetas de la lente de la cámara.

    • Estas sombras son difíciles de eliminar y no hay un complemento o filtro automático para ayudarnos.
    • En teoría, podríamos superponer un relleno de gradiente a estas regiones, pero puede que no conduzca a los resultados esperados, por lo tanto, puede no valer el tiempo que necesitaríamos.
    • Por lo tanto, el método más rápido es simplemente usar la herramienta de borrador para eliminar todas esas sombras feas fuera del texto (lo cual deberíamos ahorrar).

      ingrese la descripción de la imagen aquí borrado -> ingrese la descripción de la imagen aquí

  2. Escalar imagen?

    Dependiendo de la resolución de la cámara, la ampliación de la imagen a un tamaño de imagen del escáner solo aumentará el tamaño del archivo, pero no tendrá ningún beneficio en la calidad de la imagen. La reducción a escala eliminará los detalles. Por lo tanto, no debemos escalar la imagen, sino ajustar el tamaño de impresión desde el cuadro de diálogo de la impresora (o debajo en 8.).

  3. Generar PDF

    Podemos importar nuestra imagen ahora bien restaurada manualmente a LibreOffice ( Insertar> Medios ) para

    • Definir sus dimensiones.
    • Exportar como PDF
    • Imprimir (para mí imprimir desde LibreOffice conduce a un resultado deseado con mucha más frecuencia que cualquier otra cosa).
Takkat
fuente
Muchas gracias por los pasos detallados. Me han ayudado a resolver un antiguo problema de convertir fotos a documentos escaneados. Estoy totalmente impresionado por el poder de la transformación de la perspectiva.
Chethan S.
Respuesta impresionante! La herramienta de perspectiva fue bastante confusa para mí al principio, así que aquí hay una gran guía. Agregué 4 líneas de guía y luego coloqué las esquinas de la imagen usando la herramienta de perspectiva hasta que la imagen fue cuadrada con las 4 pautas.
Gabriel Staples
(24 horas después). ¡Uy! Olvidé el enlace. Aquí está la guía de la que estaba hablando: lifewire.com/… .
Gabriel Staples
1

Si ya tiene la imagen del documento, simplemente descargue la aplicación CamScanner en su teléfono / tableta. Le permitirá importar la imagen, luego hará un recorte sugerido y le permitirá aplanar, así como ajustar colores / contraste, etc. Solo toma un minuto.

Dan
fuente