Escanee muchas páginas directamente en un PDF

36

¿Hay algún programa fácil de usar en Ubuntu que pueda escanear muchas páginas directamente en un archivo PDF?

pupeno
fuente
Solo me pregunto, ¿hay alguna calificación especial necesaria para escáneres / impresoras que me gustaría usar en Ubuntu?
JFW
@JFW, aquí hay una lista de dispositivos compatibles con XSane, el back-end utilizado por la mayoría de los escáneres de Ubuntu. Las impresoras / escáneres / copiadoras HP parecen una buena opción confiable, si está buscando.
poolie

Respuestas:

38

La idea de tener una utilidad de escaneo simple estuvo detrás del desarrollo de, bueno, Simple Scan , la herramienta de escaneo instalada por defecto desde 10.04 en adelante (Aplicaciones ‣ Gráficos Scan Escaneo simple). texto alternativo

Simplemente escanee tantas páginas como desee y elija PDF como formato de archivo al guardar.

Otro programa un poco menos simple que ofrece características adicionales como el reconocimiento de texto es gscan2pdf , también en los repositorios. texto alternativo

Marcel Stimberg
fuente
3
+1 para Escaneo simple: es tan fácil y simple, pero también muy potente, es particularmente adecuado para el trabajo que mencionó.
8128
6

"Fácil de usar" está en el ojo del usuario, pero xsaneproporciona esta funcionalidad. Elija multipágina donde dice visor (o presione CTRL-M), y no debería ser demasiado difícil de entender desde allí.

Karl Bielefeldt
fuente
1
Personalmente veo Xsane tan lejos de ser fácil de usar ...
8128
He estado usando xsane todo este tiempo. Nunca se me ocurrió que podría haber una herramienta mejor.
Amanda
3

Estaba usando xsanehasta que vi esta pregunta y consideré su interfaz idiosincrásica por decir lo menos, pero efectiva.

Al ver esta pregunta, busqué y encontré gscan2pdf viviendo en los repositorios Ubuntu Lucid / Maverick. Utiliza el mismo motor de escaneo (libsane) pero la interfaz de usuario es mucho más Gnome-ish. Para pasar un buen rato, intente:

sudo apt-get install gscan2pdf
msw
fuente
3

Cambie el nombre del archivo de myfile.jpg a myfile.pdf en el cuadro de diálogo Guardar de Simple Scan.

Probado en Ubuntu 14.04, Simple Scan 3.12.1.

Esto funciona aunque el menú desplegable de tipo de archivo no muestre "PDF", solo "Imágenes". Considero que esto es un error de la interfaz de usuario.

Esta característica está documentada en Help > Contents:

En el cuadro de diálogo "Guardar como", elija uno de los tipos de archivo compatibles o simplemente cambie la extensión en el campo "Nombre".

Dice que los siguientes formatos son compatibles:

  • PDF
  • JPEG
  • PNG
  • PELEA

Dato interesante: si cambia el tipo de escaneo (desplegable además de "Escanear") a "Texto", el tipo de archivo predeterminado se convierte en PDF.

Ciro Santilli 新疆 改造 中心 法轮功 六四 事件
fuente
1

Escanee páginas desde un escáner USB. Use tesseract para OCR en un PDF. Combina varias páginas en un PDF. Uso: nombre de archivo de salida scan2PDF número_de_páginas

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device `genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME=`basename "$0" .sh` #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}
Morten
fuente
se trata de un método muy Linuxoidal
RTH
1

Para aquellos de ustedes que deseen usar XSANE. Es muy potente e intuitivo una vez que lee la guía de configuración vinculada desde Ayuda> XSane Doc en el programa, para saber cuánto puede hacer con ella. También vale la pena comprobar que su backend SANE funciona correctamente (no demasiado específico para Arch): https://wiki.archlinux.org/index.php/SANE

Si desea escanear documentos automáticamente desde un alimentador, y se pregunta si XSane sabrá cuándo detenerse (y no detenerse demasiado pronto), simplemente ingrese un número en la esquina superior izquierda (icono de número de escaneos) mayor que el número de páginas que caben en tu comedero. Es decir, si su alimentador puede tomar 10 páginas, ingrese 15 (para tener en cuenta la variación de grosor). Si tiene un escáner dúplex, duplique este número.

Cuando se acaba el alimentador, aparecerá un cuadro de diálogo con un triángulo de advertencia verde que dice "" Páginas escaneadas: 0 ". Esto solo significa que el alimentador está vacío y puede cerrar el diálogo. Si seleccionó" visor "o" guardar "en la parte superior derecha de XSane, entonces todos los archivos estarán allí. Recuerde guardarlos desde el visor. Ahora puede presionar nuevamente el escaneo para continuar donde lo dejó, con los números incrementándose desde el mismo punto o puede comenzar un nuevo proyecto. No se agregarán páginas en blanco. Si seleccionó "Multipágina", el cuadro de diálogo del proyecto debe mostrar todos los escaneos completados y puede hacer clic para guardarlo como PDF, TIFF o PostScript de varias páginas.

HTH

corriente continua

usuario901387
fuente