¿Se puede hacer que Acrobat 11 haga OCR usando múltiples núcleos de CPU?

8

El procesamiento de OCR lleva tiempo. El uso de múltiples núcleos de CPU aceleraría el procesamiento. Acrobat 10 no era una aplicación multiproceso . ¿Qué tal Acrobat 11? ¿11 por defecto hace OCR usando múltiples núcleos de CPU (si está disponible)? Si no, ¿hay alguna solución, por ejemplo, secuencias de comandos, para ayudar a que Acrobat 11 haga OCR usando múltiples núcleos de CPU? Ya sea a través del lenguaje de secuencias de comandos integrado de Acrobat o utilizando secuencias de comandos externas que inician y dirigen múltiples instancias de subprocesos individuales de Acrobat en paralelo a partes del trabajo de procesamiento.

Nota: Esta pregunta no está demasiado localizada (no se limita a un momento específico en el tiempo) porque (1) Adobe no lanza nuevas versiones principales de Acrobat con mucha frecuencia (Acrobat 10 se lanzó hace dos años) y (2) Adobe Acrobat es un aplicación utilizada

tarcman
fuente

Respuestas:

6

He instalado la versión de prueba de Acrobat 11 (XI) en VirtualBox. Acrobat 11 es de un solo subproceso.

También hice un script externo que inicia múltiples instancias de Acrobat (una por núcleo de CPU), procesa en paralelo el trabajo de OCR y combina el resultado. Un paso crucial es activar el registro de errores en las preferencias de Acrobat, analizar todos los archivos .log y reprocesar los archivos de error. El script (cuando se usan 4 núcleos) todavía hace OCR dos veces más rápido que el predeterminado de Acrobat 11.

tarcman
fuente
44
Puedes dar la fuente si quieres. Si se atreven a quitarlo, se puede restaurar fácilmente.
Joey
Además, si usted es la misma persona que publicó la pregunta, considere fusionar ambas cuentas actuales no registradas con una nueva registrada. Puede comenzar aquí y también leer esto para obtener más información. Después de eso, podrá modificar su pregunta como mejor le parezca.
Indrek
No estoy tratando de obstruir nada. Debido a que sigue cambiando los nombres de usuario, parece que sus ediciones fueron realizadas por un tercero que no pareció entender la pregunta original. Además, si desea responder a su propia pregunta, debe escribirla y responderla de una vez.
Isaac Rabinovitch
He fusionado tus cuentas (no registradas) por ahora. Sin embargo, le pedimos que no use una dirección de correo electrónico desechable, sino que se registre en nuestro sitio para que pueda permanecer conectado, comentar sus preguntas, etc. Además, no se eliminará nada, no hay nada de qué preocuparse. Solo tenga en cuenta que las ediciones anónimas siempre se revisan de manera más estricta.
slhck
1
@tarcman ¿Alguna posibilidad de publicar tu script? Estoy seguro de que hay muchas personas que estarían interesadas en usarlo
Jason
1

El subprocesamiento múltiple debe integrarse en una aplicación. El desarrollador tiene que escribir el código que crea subprocesos y que divide la tarea en subtareas que se pueden asignar a cada subproceso. Si los desarrolladores de Acrobat no pueden hacer esto por su código de reconocimiento de OCR, no hay forma de que el usuario cree la lógica adicional necesaria.

Isaac Rabinovitch
fuente
2
Si se puede aplicar a rangos de páginas, probablemente podría intentar dividir el trabajo en múltiples procesos, cada OCR con solo unas pocas páginas y luego fusionando los resultados nuevamente.
Joey
0

Para usar todos los núcleos para OCR, puede consultar el Editor de intercambio de PDF. Parece que el motor OCR usa todos los núcleos en mi sistema. Sin embargo, una vez que llegue a este nivel de rendimiento, tiene sentido usar un SSD.

Debe haber un ajuste de Windows que hará que dedique más tiempo de CPU a una sola aplicación de subprocesos que no esté vinculada a E / S. En mi sistema, Acrobat no se ralentiza por el rendimiento del disco, pero la mayor parte del tiempo de CPU que obtengo al crear un índice es de aproximadamente el 30%.

Seamos realistas, Acrobat es una aplicación ampliamente utilizada pero mal escrita. Acrobat Pro tiene algunas características que aún no puede obtener en ningún otro lugar (todavía).

Len
fuente