Descubriendo metadatos sobre un PDF

32

Supongamos que tengo un PDF y quiero obtener los metadatos disponibles para ese PDF. ¿Qué utilidad debo usar?

Encuentro que la información que más me interesa saber es el tamaño del papel, algo que los lectores de PDF generalmente no informan. Por ejemplo, ¿es el tamaño carta PDF, legal, A4 o algo más? Pero la otra información disponible también puede ser de interés.

EDITAR: Aquí hay una guía práctica para los tamaños de papel, gracias a @terdon.

Faheem Mitha
fuente
1
Extraño. ¿Por qué alguien rechazaría esta pregunta? ¿Le importaria explicar?
Faheem Mitha

Respuestas:

39

Una de las herramientas canónicas para esto es pdfinfo, que viene con xpdf, si mal no recuerdo. Salida de ejemplo:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5
Ulrich Schwarz
fuente
1
En Debian, al menos, esto es parte de poppler-utils. Tengo un archivo aquí que pdfinfo informa como 595.2 x 841.44 pts. Pero esto no se informa como A4. ¿Qué decide marcarlo como A4?
Faheem Mitha
2
Los nombres están codificados : la letra es 612 ± 0.1 x 792 ± 0.1, los tamaños mágicos para DIN / ISO A son (todos ± 1 pt): 3370.98, 2383.64, 1685.49, 1191.82, 842.74, 595.91, ..., así parece tu página es un poco demasiado estrecha para pdfinfopoder recogerla.
Ulrich Schwarz
Ya veo, el bit de código if ((fabs(w - 612) < 0.1 && fabs(h - 792) < 0.1) || (fabs(w - 792) < 0.1 && fabs(h - 612) < 0.1))?
Faheem Mitha
Esa es la letra, los formatos A están en el bucle con el sqrt(2)s.
Ulrich Schwarz
13

Otra utilidad que vale la pena considerar es exiftool . Puede que no sea la herramienta adecuada en su caso específico, ya que no informa ninguna información sobre la geometría del documento, pero en general es probablemente la herramienta más completa para inspeccionar metadatos PDF.

Aquí hay un ejemplo de un comando que imprimirá toda la meta información disponible ( -a), ordenada por grupos ( -G1):

exiftool -a -G1 "$File"

La documentación oficial ofrece una descripción general de las etiquetas relacionadas con PDF compatibles:

Puede instalar exiftool en Debian / Ubuntu con:

sudo apt-get install libimage-exiftool-perl

Si está más interesado en el lado de la GUI, puede probar mi proyecto PDFMtEd . Es un conjunto de herramientas que sirven como interfaces gráficas para exiftool y permiten ver y editar metadatos PDF.

Aquí hay un par de capturas de pantalla:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Glutanimato
fuente