¿Cómo extraigo texto de un PDF que no se creó con un índice? Todo es texto, pero no puedo buscar ni seleccionar nada. Estoy ejecutando Kubuntu, y Okular no tiene esta
El reconocimiento óptico de caracteres (OCR) es el proceso de convertir imágenes de texto en texto que puede ser manipulado por procesadores de texto, etc.
Hoy recibí un PDF de nuestro proveedor y contenía varias páginas impresas y escaneadas con firmas, etc. Lo abrí en Acrobat Reader DC. Pero para mi sorpresa, el texto de las imágenes evidentemente escaneadas podría seleccionarse y copiarse como texto. Ver la captura de pantalla: Evidentemente,...
Esto se discutió hace un año aquí: ¿OCR por lotes para muchos archivos PDF (no OCR)? ¿Hay alguna forma de agrupar archivos PDF de OCR que no hayan sido OCR? Este es, creo, el estado actual de las cosas relacionadas con dos problemas: PDF de OCR por lotes Ventanas Acrobat : este es el motor...
Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que sea sobre el tema para Superusuario. Cerrado hace 4 años . Tengo un PDF de un libro escaneado. Estoy...
Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que sea sobre el tema para Superusuario. Cerrado hace 4 años . Muchas veces me encuentro con mapas de bits con...
Evernote hace OCR en las imágenes que guardas en él. ¿Hay alguna manera de obtener el texto completo equivalente para una imagen en Evernote, o el OCR es solo para
He estado buscando en Google durante algún tiempo, pero no puedo encontrar una respuesta a mi pregunta. Tengo capas no deseadas de OCR en un documento que escaneé recientemente con Adobe Acrobat. No se ha OCR correctamente, y quiero redactar alguna información, pero el OCR está haciendo que se...
Estuve en casa de mis abuelos el pasado fin de semana. Mi abuela sacó este libro gigante (~ 1400 páginas) de su historia familiar que data de 1630 más o menos. Como soy un nerd gigante, pensé que sería hábil tener toda la información almacenada en una base de datos y disponible en la web. Puedo...
Este PDF fue producido por Abbyy Finereader 10: http://ebooks.zeitr.org/from_abbyy.pdf Puede copiar y pegar la primera oración y obtener este resultado de texto (muy bueno): Der »Bund Deutscher Gymnastik-Schulleiter« wurde am 20. November 1955 anläßlich einer Zusammenkunft der Leiterinnen und...
Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que sea sobre el tema para Superusuario. Cerrado hace 5 años . Uso Google Desktop Search (estoy en Vista) y...
He usado SimpleOCR , que tiene una buena GUI para corregir errores. ¡Lamentablemente comete muchos errores! (y sufre otros errores y limitaciones) Por otro lado, Tesseract es más preciso pero no tiene GUI en absoluto. Mi pregunta es, ¿hay un programa de OCR gratuito para Windows que tenga una...
¿Cómo iniciar un escaneo y reconocimiento de caracteres con Microsoft Office Word 2010 (Beta)? Parece que no puedo encontrar una opción para escanear el documento en mi escáner directamente en un documento de Word 2010. Verifiqué la configuración de instalación de Office 2010 (Beta) y los...
El procesamiento de OCR lleva tiempo. El uso de múltiples núcleos de CPU aceleraría el procesamiento. Acrobat 10 no era una aplicación multiproceso . ¿Qué tal Acrobat 11? ¿11 por defecto hace OCR usando múltiples núcleos de CPU (si está disponible)? Si no, ¿hay alguna solución, por ejemplo,...
A veces necesito imágenes OCR con las que me encuentro en algunas páginas web. Me gustaría saber si hay alguna plugins para Firefox y Chrome que me permitirían cargar la imagen deseada para procesarla en sus servidores, reconocerla y enviarme el resultado.
Tengo un libro que quiero leer en pantalla. Se escanea a 200 ppp monocromo (todavía no sé qué salió mal en el controlador del escáner, recuerdo haberlo configurado en escala de grises, pero no puedo permitirme el tiempo para escanear nuevamente), por lo que es difícil de leer. Lo oculté con Acrobat...
cuneiforme -l eng -f texto -o outocr.txt input.pdf El comando anterior, cuando se ejecuta en la terminal, genera solo el texto de mi página de título PDF en el archivo outocr.txt. ¿Qué debo hacer para que reconozca todo el texto en el PDF de 120 páginas? Estoy usando Fedora Linux 25...
En Adobe Acrobat (estoy usando Pro DC si eso importa), hay tres opciones para OCR: "Imagen de búsqueda". "Imagen de búsqueda (exacta)". "Texto e imágenes editables". ¿Cuáles son las diferencias entre estas tres opciones? En particular, ¿qué determina el tamaño del archivo de salida? En...
Estoy teniendo problemas con toneladas de papeleo. Quiero digitalizarlo para simplificar la búsqueda y, por lo tanto, reducir una gran cantidad de tiempo dedicado a revisar el papeleo. Es bastante simple, quiero escanear documentos, que comparten el mismo diseño y lo cambian de nombre de...
Necesito comparar un pdf con aproximadamente 27000 páginas (páginas escaneadas) con otro pdf con aproximadamente 28000 páginas (también páginas escaneadas) para poder encontrar las 1000 páginas que difieren. ¿Alguien ahora es un buen programa para hacer este trabajo?