Necesita encontrar y convertir miles de TIFF de varias páginas

1

Tengo una gran colección de documentos en varios formatos (PDF, TIFF, JPEG).

Muchos de los TIFF son de varias páginas, como los faxes, y la única forma en que sé ver todas las páginas es con Vista previa.

¿Hay algún método o aplicación o comando de shell (vía brew) que pueda encontrar todos los TIFF de varias páginas para que pueda convertirlos a PDF de varias páginas?

Dan
fuente
2
¿Está buscando aprender cómo programar esto (para que pueda decidir contratar ese trabajo o hacerlo usted mismo) o más de un problema de tipo de recomendación de software. El método de programación es bastante amplio en sí mismo, y el shell / automatizador / AppleScript podría ser bastante adecuado en manos de alguien moderadamente experto con esas herramientas.
bmike
Jugué un poco con LibTIFF, que entre las utilidades son tiff2pdfy tiff2ps. El primero no funcionó, solo hizo páginas en blanco, sin embargo, el último sí funcionó. Luego usé el nativo pstopdfpara convertir los archivos .ps a archivos .pdf. Esto puede ser programado para manejar múltiples archivos de entrada y eliminar los archivos intermedios .ps, de modo que lo que queda son los archivos originales .tiff y convertidos .pdf. Su pregunta es algo amplia, por lo que no voy a poner esto en forma de respuesta, ya que no hay información sobre su nivel de habilidad y qué más necesita para abordar el problema.
user3439894
tiff2pdffunciona para mí ... en aproximadamente el 60% de los TIFF. El resto lo puedo convertir con Vista previa. Mi problema es identificarlos, no convertirlos. Probaré exiftool.
Dan

Respuestas:

1

Hay una manera de encontrarlos usando una línea de comando en la terminal. Esto requiere que instales una herramienta que no sea parte del conjunto de comandos predeterminado.

Descargue e instale exiftool.

exiftool puede imprimir información detallada sobre archivos de imagen, incluidos los TIFF. Puede diferenciar entre documentos de varias páginas y entre FAX y TIFF fotográficos. Por ejemplo, testphoto.tif es un archivo TIFF normal y testfax.tif es un FAX de varias páginas:

MacBook-Air:Downloads jamie$ exiftool -s -Format -Compression -SubfileType *.tif 
======== testfax.tif
Compression                     : T6/Group 4 Fax
SubfileType                     : Single page of multi-page image
======== testphoto.tif
Format                          : image/tiff
Compression                     : LZW
SubfileType                     : Full-resolution Image
    2 image files read

Si podemos obtener el nombre del archivo y la información de identificación en una línea, entonces podemos usar grep para identificar los archivos que queremos. La opción -csv coloca la salida en una línea en formato de valores separados por comas. Entonces, un comando como este haría lo que quieras.

MacBook-Air:Downloads jamie$ exiftool -csv  -SubfileType *.tif | grep multi-page
    2 image files read
testfax.tif,Single page of multi-page image

Por lo tanto, hemos identificado correctamente testfax.tif como el único TIFF de varias páginas en este directorio.

Jamie Cox
fuente
Es posible que no pueda confiar en exiftool. Tengo muchos archivos .tiff de varias páginas que no detecta que son de varias páginas, incluidos los que dicen Fax T6 / Grupo 4, son de varias páginas pero no lo muestran. Entonces, aunque es un método posible, puede no ser confiable dependiendo de otros factores.
user3439894
Podría creer que, dependiendo de cómo se crearon, los atributos pueden variar. Quizás para el OP, será suficiente, o quizás incluso mejor, detectar el atributo "T6 / Group 4 Fax".
Jamie Cox
¿Cuántas páginas tiene testfax.tify le exiftoolda un Page Countpara ese .tif?
user3439894
testfax.tif es de tres páginas. exiftool -aen realidad devuelve información para cada página separada: por lo MacBook-Air:Downloads jamie$ exiftool -a testfax.tif | grep -i page Subfile Type : Single page of multi-page image Page Number : 0 3 Subfile Type : Single page of multi-page image Page Number : 1 3 Subfile Type : Single page of multi-page image Page Number : 2 3 tanto, estoy interpretando que describe la última página, por ejemplo, como 2 de 3.
Jamie Cox
No funciona para mí ... no puede identificar algunas páginas múltiples ... :(
Dan