En Adobe Acrobat (estoy usando Pro DC si eso importa), hay tres opciones para OCR:
- "Imagen de búsqueda".
- "Imagen de búsqueda (exacta)".
- "Texto e imágenes editables".
¿Cuáles son las diferencias entre estas tres opciones?
En particular, ¿qué determina el tamaño del archivo de salida? En este momento he estado ejecutando la primera y la tercera opción y parece que a veces una es más grande y otras más grande (y las diferencias pueden ser sustanciales).
¿Cuáles (si las hay) son las compensaciones entre calidad, tamaño de archivo y velocidad de procesamiento de OCR?
adobe-acrobat
ocr
Kenny LJ
fuente
fuente
Respuestas:
El artículo de la Ayuda de Adobe Escanear un documento en papel a PDF , sección Reconocer texto - Cuadro de diálogo Configuración general, define los modos de escaneo como:
Analizaré el efecto de estas opciones en el tamaño del archivo de salida.
Todas las opciones mantienen la imagen, que probablemente sea un objeto grande.
La imagen de búsqueda gira la imagen, lo que puede cambiar su tamaño haciéndola más grande o más pequeña, dependiendo del método de codificación de imagen utilizado internamente por Adobe
Downsample To puede reducir la resolución de la imagen y así reducir su tamaño, pero la cantidad de espacio ganado (o perdido) depende del método de re-muestra utilizado internamente por Adobe.
Editable Text & Images sintetiza una nueva fuente, que luego se incluye en el PDF y agregará varias docenas de K-bytes al tamaño de salida.
En general, no existe un método claro para crear el PDF más pequeño. La cantidad ganada (o perdida) depende tanto de las imágenes que se están reproduciendo con OCR como de la eficacia con que Adobe pueda volver a comprimirlas.
Si el objetivo es ahorrar espacio, sugeriría usar texto e imágenes editables , pero como se describe en este artículo de Adobe Acrobat , especifique en Configuración "Usar fuente de sistema disponible" que podría evitar la fuente personalizada. También puede eliminar las imágenes, si el texto de OCR es suficiente.
fuente