¿Cómo eliminar OCR de un PDF?

13

He estado buscando en Google durante algún tiempo, pero no puedo encontrar una respuesta a mi pregunta.

Tengo capas no deseadas de OCR en un documento que escaneé recientemente con Adobe Acrobat. No se ha OCR correctamente, y quiero redactar alguna información, pero el OCR está haciendo que se borre la información deseada. Convertí los archivos a TIF, pero noté una pérdida de calidad (muy) significativa. He oído que imprimir en otro PDF mantiene el texto o reduce la calidad de la imagen.

Agradezco cualquier ayuda para resolver este problema lo antes posible.

Gracias.

Sanoo
fuente

Respuestas:

5

En Acrobat Pro DC, el comando apropiado es "Eliminar información oculta", que está disponible a través de las herramientas "Proteger" y "Redactar".

Al ejecutar el comando, solo busca la información oculta pero no cambia el documento. Luego debe decirle a Acrobat qué información eliminar. En este caso, seleccione "Texto oculto" en el panel Resultados, luego haga clic en el botón Eliminar y guarde el documento modificado.

usuario1125483
fuente
He usado la opción "eliminar información oculta", pero para mí, por alguna razón, solo elimina partes de la imagen en ciertas páginas. Gracias por su respuesta sin embargo.
Sanoo
Esto no es universalmente cierto. De alguna manera (probablemente errores de MacOS PDFKit) mi texto ABBYY FineReader-OCRed se corrompió, y al marcar "Texto oculto" en Redact → Remove Hidden eliminó el texto sin ningún problema; Luego pude usar con éxito Mejorar escaneos → Reconocer texto para realizar OCR dentro de Acrobat.
Nicholas Riley
El problema para mí es que después de eliminar el texto oculto, todavía no puedo ejecutar un OCR con "ClearScan" (es decir, "Texto e imágenes editables"). Es extraño porque la capa de texto parece haber desaparecido, pero ejecutar OCR produce el error "Acrobat no pudo realizar el reconocimiento porque: la página contiene texto representable".
user1125483
1

Después de mucho experimentar, descubrí que imprimir en Adobe PDF desde Adobe Acrobat imprime el documento sin el OCR y sin perder la calidad (se pierde una resolución imperceptible a primera vista).

Sin embargo, muchos sitios afirman que esto no funciona. También probé con otras impresoras como Foxit Reader y OneNote, pero la calidad se redujo. JPEG también era lo mismo.

Tenga en cuenta que su kilometraje puede variar.

Nota: Dejo este hilo marcado como sin respuesta con la esperanza de encontrar una respuesta mejor que la mía.

Sanoo
fuente
1

(hace un año...)

Si, como usted dice, los documentos se escanean y no se imprimen en PDF desde Word, por ejemplo, puede eliminarlos fácilmente con su Adobe:

Seleccione Documento, Examinar documento y ahora puede eliminar el texto oculto (OCR).

Fran
fuente
Gracias por su respuesta. Lo probaré tan pronto como pueda y te lo haré saber. ¡Gracias por la respuesta!
Sanoo
Pensé que ya había comentado sobre esto, pero el problema es que tengo Acrobat DC Pro y esos menús se han eliminado. Gracias por tu respuesta de todos modos.
Sanoo
1

En Acrobat Pro: use 'eliminar información oculta' (bajo 'protección'). Seleccionar todo, ejecutar, OCR se ha ido

jazzzz
fuente
1

En Acrobat X, bajo Protección, hay un botón Desinfectar documento que elimina TODO lo que se puede ver (incluida la capa de texto OCR), convirtiendo el documento en un mapa de bits plano.

Dave
fuente
0

Creé una herramienta para hacer este PDF Redactor gratuito . Si carga la imagen y simplemente hace clic en redactar, aplanará su pdf y eliminará el OCR. Si lo desea, también puede dibujar marcas de redacción en el documento.

levinologia
fuente