Escanear libros: organizar el conocimiento

0

Estoy escaneando varios volúmenes de libros de teoría musical. Además de crear un pdf / djvu para cada libro, quiero organizar lógicamente los contenidos, a través de volúmenes, de forma que se puedan buscar y recopilar. (Sin OCR)

Ejemplo : Digamos que " Big Music Theory Book " es una serie con 6 volúmenes. Cada volumen tiene alrededor de una docena de capítulos. Un cierto tema discutido en el Vol. 1 (digamos, en el Medidor ), se elabora en el Vol. 2. Por lo tanto, me gustaría poder combinar estos dos capítulos y verlos.

Me gustaría ir a través de las páginas y agregar etiquetas / palabras clave / descripciones de texto, manualmente , a toda la página o regiones, y recuperar las páginas mediante la búsqueda . Me encantaría poder crear vistas de temas sabios , que recuperen páginas a través de vistas. (En nuestro ejemplo, el medidor )

Buscar, recopilar y presentar contenido en diferentes vistas no es nuevo para nosotros. Pero,

  1. ¿Existe un (colección de) software, preferiblemente de código abierto, para hacer lo mismo en las páginas escaneadas?
  2. Si no es así y si tengo que hackear, cuál es la mejor manera de comenzar ( mantener sueltas las páginas escaneadas; djvu con contorno, texto oculto; epub ... )
ananth.p
fuente
1
No puedes buscar un montón de imágenes de página sin OCR, ¿verdad?
Grawity
Bueno, podría indexarlos manualmente, agregando números de página y palabras clave que se almacenarían en algún tipo de back-end. Pero a menos que sepa que su software de OCR es una mierda para esta entrada, probablemente sea mejor que aplique OCR al lote y lo almacene como texto oculto y realice una búsqueda.
Michael Paulukonis
Algunos de estos libros son idiomas que OCR aún no funcionará. Intenté algunos ocres de código abierto en escaneos en inglés, sin buenos resultados. De todos modos, 'Texto completo' no es necesario. Estoy de acuerdo con agregar palabras clave manualmente a las páginas.
ananth.p