Examinar la estructura interna del PDF

18

¿Cómo examinar la estructura interna de PDF en adobe 9.0?

No encontré el menú avanzado que tiene esta opción.

¿Alguien puede ayudarme?


fuente

Respuestas:

23

Hay varias formas de explorar la estructura interna de un PDF.

Los PDF son legibles para humanos

Salvo las contraseñas de seguridad, gran parte es legible por humanos. Si un PDF tiene una contraseña, todas las cadenas y secuencias (que ya estarán comprimidas, sin pérdida) serán basura pseudoaleatoria. Abundan los flujos de datos comprimidos, pero gran parte se parece a esto en su editor de texto favorito:

2 0 obj
<< /Type /Page 
   /MediaBox [0 0 612 792]
   /Contents 4 0 R
   /Resources << /Fonts 
     << /F1 5 0 R>> 
   >>
>>
endobj

Advertencia: el espacio en blanco es en gran medida irrelevante y generalmente se elimina cuando es posible. Simplemente hice esto bonito para que entenderlo sea un poco más fácil.

<< y >> comienzan y terminan los "diccionarios". Los diccionarios están formados por pares clave / valor. La clave siempre es un "nombre": todos los nombres comienzan con '/'. El valor puede ser cualquier cosa, incluido otro nombre.

[ y ] comienzan y terminan las "matrices". Las matrices pueden estar formadas por casi cualquier cosa.

Los números son "números". Punto flotante o de otra manera.

() y <> comienzan y terminan las "cadenas". <> las cadenas se enumeran como valores hexadecimales, () son cadenas ANSI.

Pet Peeve: / Names y (Strings) usan sistemas de escape completamente diferentes. Grr.

Las referencias indirectas apuntan a otros objetos en el PDF:
<objNum> <generationNum-AlwaysZero> R

En el objeto de ejemplo anterior, la secuencia de contenido está en el objeto 4, en otra parte del PDF. Para encontrarlo, puede usar la búsqueda de texto de su editor para "N 0 obj", donde N es el número de objeto que desea.
ADVERTENCIA: Hay cientos, posiblemente miles de objetos en un PDF. Si buscas "1 0 obj" obtendrás MUCHOS éxitos.

Dado que está pidiendo ver la estructura interna, probablemente ya sepa todo esto. Otros que quieran saber lo mismo pueden no saberlo.

ADVERTENCIA: NO EDITE un PDF en un editor de texto. Todas esas cosas binarias se destrozarán, los desplazamientos de bytes son muy importantes en PDF.

Complemento de Acrobat [s]

Hay un complemento acrobat llamado PDF CanOpener por Windjack Solutions (sin afiliación). Es liso. Podrá explorar la estructura del PDF como un árbol, mirar (y modificar) las secuencias de contenido, etc.

Aplicaciones de terceros

Un montón. Muchas personas crean uno como parte del aprendizaje para analizar PDF o como una herramienta de depuración. Son bastante prácticos.

iText RUPS (parte de iText, una biblioteca Java PDF, ahora en GitHub)

Explorador de objetos PDF

PDF Vole

Mark Storer
fuente
1
PDF Voleel enlace parece estar roto ahora ...
ADN
55
+1 para iText RUPS, no es precisamente una GUI amigable pero funciona, por cierto, actualmente la URL del proyecto parece ser ( sourceforge.net/projects/itextrups )
Jaime Hablutzel
2
iText RUPS se ha movido aquí: github.com/itext/rups
bmaupin
1
Hay una copia del código fuente de pdfvole aquí: github.com/Rossi1337/pdf_vole
yms
1
Si el PDF tiene flujos de datos comprimidos, la utilidad de línea de comandos qpdf puede decodificarlos / desinflarlos y escribir un PDF con contenidos más inteligibles: `qpdf --decode-level = all --stream-data = descomprimir inputfile.pdf archivo expandido. pdf
skierpage
2

El editor gratuito PDF-XChange tiene un panel de contenido que le permite ver la estructura de árbol del archivo PDF.

View -> Panes -> Content
Hüseyin Yağlı
fuente
2

PDF Vole parece estar roto. Si alguien todavía está buscando una herramienta, estoy usando el PDF Analyzer gratuito .

ingrese la descripción de la imagen aquí

juFo
fuente