No se puede copiar texto de un archivo pdf

40

Estoy usando el lector de PDF foxit para ver mi libro de texto. Me gustaría copiar el texto del archivo pdf en un documento de Word, pero no me lo permite. Puedo seleccionar bien el texto, pero la opción para copiar texto no está disponible. Puedo copiar texto de otros documentos pero no algunos. ¿Hay alguna forma de evitar esta protección en Windows?

Jonno_FTW
fuente
Veo que mi respuesta no funciona para ti, así que has publicado una recompensa. Si publica en alguna parte un ejemplo de tal pdf, lo echaré un vistazo.
harrymc
@harrymc: Específicamente, estaba buscando copiar los valores de la tabla 6.15 de acousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith
@endolith: mira mi nueva respuesta.
harrymc

Respuestas:

29

El archivo pdf probablemente ha sido bloqueado contra la copia de texto. A continuación hay dos formas de desbloquearlo:

  1. Si el pdf no se ha bloqueado contra la impresión, puede imprimirlo en una impresora virtual de pdf para crear un archivo desbloqueado. Vea esto:
    "Quite la contraseña y desbloquee el PDF protegido que permitió que se imprimiera sin conocer el secreto" .
  2. Si la función de impresión se ha bloqueado, vea esto:
    "Eliminar restricciones y descifrar archivos PDF protegidos con contraseña con PDF Unlocker" .
harrymc
fuente
Puede ver si el PDF está bloqueado para copiar. En el menú Archivo, elija Propiedades y en la pestaña Seguridad se indica si se permite la copia de contenido.
Rob Sedgwick
Intenté imprimir el PDF. El archivo impreso no permite seleccionar texto, parece que convirtió el texto en imagen.
Queezz
@queezz: El PDF debe haber contenido las imágenes para comenzar.
harrymc
@harrymc Sí, hay imágenes. Pero el texto también se convierte en imágenes. La opción Google Chrome funciona bien en el mismo documento.
Queezz
Su primer enlace enlaza con primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe, lo cual es malo, no funciona y parece que ni siquiera lo archivó en archive.org. Su segundo enlace está bien pero enlaza con un sitio para compartir archivos dfiles.eu/files/7kiqyvswk , aunque el archivo está bien, verificado con virustotal. Pero no es tan fácil de encontrar, ya que hay varios enlaces en esa página de mydigitallife. Es donde dice "PDF Unlocker es una herramienta gratuita pero fácil de usar que se puede descargar a través del enlace aquí (versión actual 1.0.4)".
barlop
25
  1. Abra el PDF en Google Chrome (arrastre y suelte el archivo PDF en Chrome).
  2. Imprima la página en particular como PDF o simplemente abra la vista previa de impresión.
  3. Ahora puede copiar el texto desde la vista previa de impresión o el PDF de salida. Pero no creo que puedas copiar la tabla directamente.
Khaleel
fuente
44
Esto también funciona para mí. Este es el método más fácil que veo aquí.
endolito
3
Absolutamente brillante. Ah, por cierto, puedes arrastrar archivos a la barra de pestañas de Chrome para abrirlos rápidamente.
iono
Ninguno de esos métodos funcionó para mí en Chrome 53. ¿Se ha cerrado la escapatoria?
Simon East
11

Pude crear una versión sin DRM de su archivo PDF usando Ghostscript (que está disponible para Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

El archivo resultante stripped.pdfse puede cargar en Adobe Reader, y Reader le permitirá copiar cualquier parte que desee. También conserva la mayor parte del formato de la tabla.

Michael Hampton
fuente
Esto es brillante. Mi asesor fiscal se niega a darme PDF que no sean DRM, ni la contraseña para eliminar DRM. Esto resuelve mi problema. ¡Excelente trabajo!
kevinarpe
Si el PDF tiene una contraseña, asegúrese de incluir el -sPDFPasswordmodificador ( -sPDFPassword=password).
palswim
2

Pude copiar la tabla de su archivo PDF con éxito usando Okular (para Linux; parte de KDE). Para hacer esto, tuve que ir a la configuración de Okular y desmarcar "Obedecer restricciones DRM".

Soy consciente de que esto realmente no te ayuda mucho ya que estás ejecutando Windows, pero es una posibilidad si tienes una máquina Linux a mano o estás dispuesto a instalarla.

Desafortunadamente, era texto sin formato, pero parece que no debería ser demasiado difícil recrear la tabla. Puedes ver los resultados de mi aventura de copiar y pegar aquí .

Michael Hampton
fuente
Para eso está VirtualBox. : DI también puede copiar el texto sin formato, pero al seleccionar una columna a la vez, es bastante fácil de exportar.
endolito el
Parece que esto es lo mejor para las tablas de números, ya que Okular le permite hacer una selección rectangular de texto y extraer una sola columna en orden.
endolito
Para columnas individuales, probablemente sea así. Para toda la tabla, vea mi otra respuesta .
Michael Hampton
Tenga en cuenta que Okular puede ejecutarse en Windows. De hecho, mucho software de KDE puede ejecutarse en Windows .
Bakuriu
1

Puede usar GT Text es un programa que traduce imágenes (también instantáneas pdf = imagen) a texto. Puede seleccionar el área y copiarla al portapapeles. Es gratis.

La página de inicio oficial es http://gttext.googlecode.com

David
fuente
1

si la copia está atenuada, ya que ahora la duda es para usted, entonces el PDF está 'bloqueado', puede leerse, pero de hecho le impide copiar / pegar nada.

Este sitio web desbloqueará un PDF

https://smallpdf.com/unlock-pdf

barlop
fuente
0

Si solo está buscando fragmentos cortos, a menudo puede escribir algunas palabras en google entre comillas y encontrar la cita exacta ya escaneada en otro formato o escrita por otra persona.

Otra opción es "Documento de foto" en la aplicación de Android Google Docs, que pondrá el texto a través de OCR. Esto es propenso a errores, por supuesto.

Deseo que la funcionalidad de bloqueo de PDF nunca haya existido. :(

endolito
fuente
0

Respuesta al endolito:

Su PDF está protegido contra la copia, pero no está protegido contra la impresión.

Así que imprimí la página que contiene la tabla 6.15 en otro PDF que no está protegido contra la copia, seleccioné y copié la tabla, luego la pegué en Word. Para mi gran sorpresa, el resultado de la pasta fue pura basura.

Ahora he echado un vistazo a esta tabla y he encontrado un resultado muy sorprendente: ¡ Esta no es una tabla!

En realidad, es un montaje de pequeños fragmentos de texto, colocados en la página para que parezca una tabla. Pero esta no es una mesa real.

Lo mejor que puede hacer es reescribir todo como una tabla, o simplemente usar en su trabajo una captura de pantalla de este texto ensamblado similar a una tabla.

Aquí está mi captura de pantalla de la tabla, tomada de mi documento pdf generado de una página :

imagen

harrymc
fuente
Intenté imprimirlo con 2 programas, pero todo lo que obtuve fue una página en blanco.
endolito
Usando Foxit Reader , me posicioné en la página, luego imprimí la página actual en una impresora pdf (usé Cute Pdf Writer ). Trataré de analizar el problema con la copia de la tabla esta noche,
harrymc
Probé PrimoPDF y qvPDF (que usa GhostScript)
endolith
Ver mi adición anterior.
harrymc
... También cargué mi pdf de una página aquí (60 segundos de tiempo de espera).
harrymc
0

Otra posibilidad es Evince .

En Windows , parece admitir la copia por defecto.

En Linux, la copia se puede habilitar comprobando la override_restrictionsconfiguración si aún no lo está, siguiendo estas instrucciones ( dconf-editor/org/gnome/evinceoverride_restrictions).

endolito
fuente