Comprender las opciones de OCR en Adobe Acrobat: “Imagen de búsqueda”, “Imagen de búsqueda (exacta)” e “Texto e imágenes editables”

2

En Adobe Acrobat (estoy usando Pro DC si eso importa), hay tres opciones para OCR:

  1. "Imagen de búsqueda".
  2. "Imagen de búsqueda (exacta)".
  3. "Texto e imágenes editables".

ingrese la descripción de la imagen aquí

¿Cuáles son las diferencias entre estas tres opciones?

En particular, ¿qué determina el tamaño del archivo de salida? En este momento he estado ejecutando la primera y la tercera opción y parece que a veces una es más grande y otras más grande (y las diferencias pueden ser sustanciales).

¿Cuáles (si las hay) son las compensaciones entre calidad, tamaño de archivo y velocidad de procesamiento de OCR?

Kenny LJ
fuente
El tema que le interesa es hacia el final de la guía, bajo el título Reconocer texto en documentos escaneados . También existe esta página del
spike_66

Respuestas:

3

El artículo de la Ayuda de Adobe Escanear un documento en papel a PDF , sección Reconocer texto - Cuadro de diálogo Configuración general, define los modos de escaneo como:

Imagen de búsqueda

Asegura que el texto se pueda buscar y seleccionar. Esta opción mantiene la imagen original, la alinea según sea necesario y coloca una capa de texto invisible sobre ella. La selección de Downsample Images en este mismo cuadro de diálogo determina si la imagen está disminuida y en qué medida.

Imagen de búsqueda (exacta)

Asegura que el texto se pueda buscar y seleccionar. Esta opción mantiene la imagen original y coloca una capa de texto invisible sobre ella. Recomendado para casos que requieren la máxima fidelidad a la imagen original.

Texto e imágenes editables

Sintetiza una nueva fuente personalizada que se aproxima mucho al original y conserva el fondo de la página utilizando una copia de baja resolución.

Reducción de muestra a

Disminuye el número de píxeles en color, escala de grises e imágenes monocromas después de que se completa OCR. Elija el grado de disminución de la muestra a aplicar. Las opciones con números más altos reducen el muestreo y producen archivos PDF de mayor resolución.

Analizaré el efecto de estas opciones en el tamaño del archivo de salida.

Todas las opciones mantienen la imagen, que probablemente sea un objeto grande.

La imagen de búsqueda gira la imagen, lo que puede cambiar su tamaño haciéndola más grande o más pequeña, dependiendo del método de codificación de imagen utilizado internamente por Adobe

Downsample To puede reducir la resolución de la imagen y así reducir su tamaño, pero la cantidad de espacio ganado (o perdido) depende del método de re-muestra utilizado internamente por Adobe.

Editable Text & Images sintetiza una nueva fuente, que luego se incluye en el PDF y agregará varias docenas de K-bytes al tamaño de salida.

En general, no existe un método claro para crear el PDF más pequeño. La cantidad ganada (o perdida) depende tanto de las imágenes que se están reproduciendo con OCR como de la eficacia con que Adobe pueda volver a comprimirlas.

Si el objetivo es ahorrar espacio, sugeriría usar texto e imágenes editables , pero como se describe en este artículo de Adobe Acrobat , especifique en Configuración "Usar fuente de sistema disponible" que podría evitar la fuente personalizada. También puede eliminar las imágenes, si el texto de OCR es suficiente.

harrymc
fuente