¿Cómo eliminar una marca de agua de un archivo PDF?

41

Pensé que sería una tarea simple, pero resultó de otra manera.

La marca de agua es la misma imagen (superpuesta, pero transparente) en cada página. Yo mismo creé el archivo PDF (así que no me preocupo por los derechos de autor aquí) usando PDFCreator 0.9.8.

Ya probé el Adobe Acrobat Pro de mi amigo, pero no funcionó. Intenta eliminarlo, pero no puede. Traté de eliminar el encabezado / pie de página, etc., pero la marca de agua simplemente no desaparecerá.

¿Cómo puedo eliminar la marca de agua?

apache
fuente
2
PDF es un formato de salida, como una página impresa electrónica. No está destinado a ser editado, y en la mayoría de los casos no podrá hacer lo que le pide, salvo exportar las páginas a imágenes y sacar fotos de las marcas de agua.
mk12
Las recomendaciones de compra están fuera de tema para todos los sitios web de intercambio de pila. Para evitar que esta pregunta se cierre, recomendaría cambiarla a una pregunta de cómo, en lugar de cuál
canadiense Luke REINSTATE MONICA
3
Parece que simplemente usaría PDFCreator 0.9.8 y establecería la opción para que NO se agregue una marca de agua a cada página. Supongo que esta pregunta se debe a que no tiene la fuente original.
Ramhound

Respuestas:

73

Para las marcas de agua basadas en imágenes, hay varias herramientas que prometen su eliminación automática. Por ejemplo:

Todos estos son de prueba gratuita, pero requieren una licencia para producir realmente el resultado deseado.

Sin embargo, la marca de agua de este archivo PDF específico (que el OP me envió por correo electrónico) no es una sola imagen que se repite en todas las páginas. Como resultado, PDFCreator lo codificó (casi píxel por píxel) en cada uno de ellos. Esto hace que la marca de agua sea mucho más difícil de eliminar (y da como resultado un archivo PDF bastante hinchado).

Dado que la marca de agua está compuesta de muchas imágenes pequeñas, puede eliminarlas con un editor de PDF (por ejemplo, Foxit Advanced PDF Editor ), simplemente seleccionándolas y presionando Delete. Desafortunadamente, tienes que repetir esto para cada página.

Una solución que requiera menos tiempo sería eliminar la marca de agua mediante programación. Necesitamos:

Pasos

  1. Descargue Pdftk y extraiga pdftk.exe y libiconv2.dll en % windir% \ System32 , un directorio en la ruta o en cualquier otra ubicación de su elección.

  2. Descargue e instale Notepad ++.

  3. Las transmisiones de PDF generalmente se comprimen usando el algoritmo DEFLATE . Esto ahorra espacio, pero hace que la fuente del PDF sea ilegible.

    El comando

    pdftk original.pdf output uncompressed.pdf uncompress
    

    descomprime todas las secuencias, por lo que pueden ser modificadas por un editor de texto.

  4. Abra descomprimido.pdf con Notepad ++ para revelar la estructura de la marca de agua.

    En este caso específico, cada página comienza con el bloque

    q 9 0 0 9 2997 4118.67 cm
    BI
    /CS/RGB
    /W 1
    /H 1
    /BPC 8
    ID Ÿ®¼
    EI Q
    

    y casi 4,000 bloques como este. Este bloque en particular establece solo uno ( /W 1 /H 1) de los píxeles de la marca de agua.

    Desplazarse hacia abajo hasta que cambie el patrón revela que la secuencia de la marca de agua tiene una longitud de 95.906 bytes (contando nuevas líneas). La misma secuencia exacta se repite en cada página del archivo PDF.

  5. Presione Ctrl+ Hy configure lo siguiente:

    Find:               q 9 0 0 9 2997 4118\.67 cm.{95881}
    Replace:            (blank)
    Match case:         checked
    Wrap around:        checked
    Regular expression: selected
    . matches newline:  checked
    

    La expresión regular q 9 0 0 9 2997 4118\.67 cm.{95881}coincide con la primera línea del bloque anterior ( q 9 0 0 9 2997 4118.67 cm) y todos los siguientes 95.881 caracteres, es decir, la secuencia de la marca de agua.

    Al hacer clic en Reemplazar todo, se elimina de todas las páginas del archivo PDF.

  6. La marca de agua ahora se ha eliminado, pero el archivo PDF tiene errores (las longitudes de las secuencias son incorrectas) y no está comprimido.

    El comando

    pdftk uncompressed.pdf output nowatermark.pdf compress
    

    se encarga de ambos.

  7. uncompressed.pdf ya no es necesario. Puedes borrarlo.

El resultado es el mismo PDF sin la marca de agua (y aproximadamente la mitad del tamaño).

Dennis
fuente
44
Otro truco que me pareció útil: fue difícil para mí descubrir el bloque correspondiente a la marca de agua en mi PDF. Entonces, lo que hice fue extraer una sola página del PDF, idealmente una página donde solo hay una marca de agua y no mucho más. Solo desde esta página, debería ser más fácil descubrir el bloque que corresponde a la marca de agua. Luego regrese y hágalo para el PDF original.
Kenny LJ
1
Wow, este es el primer lugar en Internet que he encontrado una buena manera de administrar esto. ¿Algún lugar que recomiende leer sobre el formato del contenedor?
ConstantineK
2
@hobs IIRC, leí partes de la referencia oficial en PDF para escribir esta respuesta.
Dennis
1
Gracias @ Dennis, ya te di un voto positivo, pero esta parece ser la mejor fuente canónica. Pude obtener lo que necesitaba haciendo solo encontrar / reemplazar y algunas ejecuciones adicionales de prueba y error de compresión. ENORME AYUDA!
ConstantineK
77
En lugar de pdftk, también puede usar qpdf para descomprimir y comprimir los archivos pdf. Comandos: qpdf --stream-data=uncompress original.pdf uncompressed.pdfyqpdf --stream-data=compress uncompressed.pdf nowatermark.pdf
David Schuler
6

Parece que la marca de agua es en realidad parte de las imágenes dentro del .PDF, y no una imagen separada representada por lo que sea que esté usando para mostrar el .PDF. Es posible que no pueda eliminar la marca de agua sin extraer las imágenes del .PDF, ejecutarlas a través de un editor de imágenes y luego reconstruir el .PDF manualmente.

LawrenceC
fuente
4

Para las marcas de agua de texto, editar una versión PostScript puede ser mucho más fácil: después

$ pdftops document.pdf

edite document.ps, luego vuelva a convertir a PDF mediante

$ ps2pdf document.ps

heiner
fuente
En Linux, ten cuidado con eso pdftopsy pdf2psson diferentes. Use el primer comando, no el segundo.
Camille Goudeseune
1
Si sabe cuál es el texto de la marca de agua, aquí hay una frase. pdftops in.pdf - | sed 's/WATERMARK//' | ps2pdf - out.pdf
Camille Goudeseune
1

Los artefactos del sello son que puede eliminarlo dentro de Adobe Acrobat Pro, sin embargo, se regenera al mover el mouse porque el objeto continuo lo mantiene persistente.

Si intenta editar la fuente pdf, lo cual es complicado, existe la posibilidad de que el archivo se corrompa.

Si el sello es un flujo, podemos interrumpirlo desconectando la computadora de la red, lo cual hice.

Luego, usando Adobe Acrobat Pro, seleccioné una de mis anotaciones, hice clic derecho para obtener la ventana emergente y seleccioné "Mostrar lista de comentarios".

Seleccione la marca de agua / sello nefasto de la lista, haga clic derecho para obtener la ventana emergente y seleccione "Eliminar". Haga esto en cada página donde se produce la fijación.

Guarde el archivo con otro nombre. Mi aplicación se bloqueó, ¡pero no antes de guardar el archivo!

Abra el archivo nuevo y mucho más pequeño; tenga en cuenta que todas las marcas de agua / sellos son gonzo.

En mi caso, el tamaño del archivo de mi documento de 3 páginas se redujo de 300 kb a unos impresionantes 60 kb. Todos los datos y anotaciones originales permanecieron intactos, sin las marcas de agua.

~ Buena caza: o)

Alan Hord
fuente
1

Convierta el documento en archivo .rtf usando zamzar. La marca de agua desaparece automáticamente después de la conversión. Tenga en cuenta: - Funciona perfectamente si el documento contiene material de texto. Siempre ha sido de gran ayuda ... (usuario de Mac)

Shifa
fuente
Esto no funciona para el PDF que probé.
Kenny LJ
1

Encontré otra forma de hacerlo:

  1. Use la herramienta pdf2htmlEX (o cualquier otro convertidor de PDF a HTML) para convertir el PDF a un archivo HTML.
  2. Edite HTML con un editor de texto y elimine la marca de agua. Guárdalo
  3. Imprima en HTML en un nuevo documento PDF
  4. Lucro
Dominik Antal
fuente
Gracias. ¿Estás seguro de que no puedes eliminar la marca de agua con Adobe Acrobat de esta manera? (Esta podría ser una solución más barata.)
Apache
Creo que necesita algún tipo de contraseña para eliminar la marca de agua en Adobe Reader, por lo tanto, utilicé este método.
Dominik Antal
0

Este es un suplemento a la respuesta de @Dennis de las 18:06 al 30 de julio de 2012. Ciertamente aborda el caso más difícil.

En el caso más simple donde la marca de agua es texto simple, sin adornos, por ejemplo

Smedley para el comisionado

las marcas de agua PDF sin comprimir pueden definirse así:

    BT
    75.96 625 Td
    (Smedley For Commissioner)Tj
    ET

donde 75.96está el desplazamiento horizontal y 625el desplazamiento vertical para esta instancia particular de marca de agua. (Sí, se pueden ver números reales y enteros).

Una expresión regular como la siguiente funcionará para todas esas marcas de agua, ignorando cualquier variación en su ubicación:

^BT\n[0-9.]+ [0-9.]+ Td\n\(Smedley For Commissioner\)Tj\nET\n

Tenga en cuenta, sin embargo, que una variedad de operadores de PDF modificadores pueden entrar en juego con marcas de agua que tienen un formato más complicado. Tal fantasía puede transformar lo que el lector espera (¿espera?) Que sea una cadena contigua, fácil de buscar, en un desastre de sopa de letras. Por ejemplo,

E 1 = mc² por Smedley ™

Podría ser el producto de esto:

    BT
    75.96 625 Td
    (E)Tj
    -5 Ts
    (1)Tj
    0 Ts
    ( = mc)Tj
    5 Ts
    (2)Tj
    0 Ts
    (by Smedley)Tj
    5 Ts
    (TM)Tj
    0 Ts
    ET

. . . ¡o mucho peor si su marca de agua tiene color mejorado!

Habiendo notado todo esto, también notaré que PDFtk tiene una versión GUI que pretende manejar marcas de agua, en consideración a una tarifa de licencia de $ 4. No es caro en absoluto!

Por otro lado, creo que su sitio web actualmente anuncia soporte completo para O / S a través de Windows 8y OS X 10.8 Mountain Lion. Esa cosecha es hace más de 4 años. ¿Podría PDFtk estar desactualizado? Sospecho que no, pero no lo sé.

Der Schley
fuente
Gracias por la recomendación PDFtk, se ve bien, pero sí, también "huele" un poco desactualizado. La versión gratuita es 2.02, y Wikipedia dice que efectivamente se lanzó hace 3 años: en.wikipedia.org/wiki/PDFtk
Apache
1
@Shiki: en realidad, hice una investigación seria en formatos PDF, pero descarté mi evaluación detallada del progreso de PDF en los últimos 10 años. Aquí está el resumen: "Deficiencias de una versión PDFtk de 3 años a la luz del desarrollo de especificaciones PDF". Si bien ha habido varias actualizaciones desde, digamos, 2005, _ estará bien con _PDFtk_ con toda probabilidad._ Digo esto después de verificar algunas fuentes de documentos PDF modernos y comúnmente disponibles. Todos los documentos PDF que verifiqué se crearon según los estándares PDF anteriores a 2010 ( mucho antes, en realidad). Si tiene alguna duda, consulte las primeras docenas de bytes del archivo PDF en cuestión.
Der Schley
0

Aquí hay formas gratuitas y pagas de hacerlo, le sugiero que use Google Drive.

Google Drive tiene la capacidad de abrir archivos y hacer algunas modificaciones menores. Además, se puede utilizar para eliminar marcas de agua de PDF en línea.

  1. Abra su cuenta de Google Drive, que es básicamente la misma que su cuenta de Gmail.
  2. Haga clic en "Nuevo"> "Carga de archivos", seleccione un documento PDF y luego cárguelo.
  3. Una vez hecho esto, puede verificar el archivo cargado en su Drive, luego haga clic derecho para abrirlo con "Google Docs".
  4. Luego, su marca de agua se eliminará automáticamente. Para guardarlo, vaya a "Archivo" y haga clic en "Descargar como" y luego seleccione "Documento PDF".
Cristal Wang
fuente