Estuve en casa de mis abuelos el pasado fin de semana. Mi abuela sacó este libro gigante (~ 1400 páginas) de su historia familiar que data de 1630 más o menos. Como soy un nerd gigante, pensé que sería hábil tener toda la información almacenada en una base de datos y disponible en la web. Puedo manejar toda la programación web y las expresiones regulares y lo que no, pero lo que no sé es la mejor manera de llevar el texto del libro a la computadora.
Sé que será necesario algún tipo de OCR, por la poca investigación que he hecho, parece que mis opciones son:
- tome una foto de cada página con una cámara y luego procese las fotos con el software OCR
- use un escáner para escanear cada página, luego procese con el software OCR
- use algún tipo de dispositivo manual, como este .
¿Alguien tiene alguna idea sobre la mejor manera de abordar este problema? No quiero destruir el libro, porque hasta donde yo sé, no puede ser reemplazado. Esta es probablemente la única vez que voy a escanear un libro grande, así que no creo que quiera gastar más de $ 250 en ningún tipo de dispositivo. No me importa un poco de esfuerzo manual aquí (me doy cuenta de que esto probablemente llevará meses), pero me gustaría encontrar el método más eficiente posible.
Nota sobre el libro: solo tiene unos 20 años, por lo que está en muy buena forma. Es monocromo y las páginas no han comenzado a ponerse amarillas. Sin embargo, dado que es tan grande, me preocupan las posibles sombras cuando el texto se acerca al enlace.
Respuestas:
Encontré esto en Lifehacker hace bastante tiempo, y ha sido uno de mis mejores proyectos de bricolaje desde entonces.
Reemplace el iPhone con cualquier cámara o imagen, y obtendrá un montón de buenos archivos JPEG de alta resolución listos para que usted los utilice en OCR con cualquier software, incluso (¡urks!) MS Office ...;)
Barato. Eficaz. Bricolaje. No se puede superar una idea como esta.
EDITAR: Los comentarios plantearon algunos puntos sobre sombras, curvas de página, etc. Se resolvió con bastante facilidad para cualquiera que literalmente haya copiado fotocopias de textos de la biblioteca.
Agregue múltiples fuentes de luz para iluminar el libro y elimine las sombras.
Incline el libro a 90 grados para que las páginas no se doblen hacia las encuadernaciones en el medio. También conserva la unión.
Veré si puedo dar un ejemplo y configurar uno yo mismo.
EDIT 2: muestra cargada de cómo debe sostener el libro, y también observe la fuente de luz desde la izquierda.
fuente
Por lo que sé, ABBYY hace el mejor software de OCR, pero no es gratis. Debería intentar usar una versión de prueba de ABBYY FineReader , tal vez le ayude.
fuente
Tendrá que capturar la imagen de alguna manera. Existen varios servicios para hacer esto por usted. También necesitará a alguien que esté familiarizado con el contenido del texto para corregirlo, ya que OCR aún no es perfecto. Especialmente con cualquier cosa escrita a mano.
Otros están discutiendo su pregunta aquí: http://ask.metafilter.com/92506/scan-my-books
Algunas compañías harán esto por usted: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Algunos programas gratuitos: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
fuente
Para un proyecto grande e importante para usted y su familia como este, un escáner de libros de bricolaje puede ser el camino a seguir, algunos diseños incluso giratorios de páginas deportivas: http://www.diybookscanner.org/ Este no es compatible de forma nativa con OCR , pero dispara 600 páginas por hora y puede ejecutarlo a través de OCR después del hecho http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
fuente
Es posible que desee ver si una universidad cercana a usted tiene un escáner de libros completo y luego suplicar / sobornar a un estudiante para que lo revise.
fuente
Recomendaría un escáner de superficie plana preparado para escanear libros o un escáner de libros completo como lo menciona Chris.
Si puede, compile sus imágenes en formato TIFF, ya que es un estándar de la industria cuando se trata de sistemas de gestión de documentos.
Para hacer OCR, recomendaría tesseract OCR ya que es el marco sobre el que Google expuso para su proyecto de libros.
fuente
Si bien parece tentador automatizar el proceso, es posible que desee invertir más tiempo y trabajo, ya que este libro en particular es un asunto personal. OCR hará el trabajo masivo, pero tendrá que revisar página por página y comparar con el original. ten en cuenta que los errores del autor son parte del trato, no los corrijas (crea notas al pie de página si te sientes inclinado). tómate tu tiempo, no te presiones, el escaneo de libros es un trabajo de burro, pero la minuciosidad paga y terminarás con una excelente copia digital de la crónica de tu familia. buena suerte con tu esfuerzo :)
fuente
En el trabajo utilizamos un escáner de libros Plustek Optibook 3600 que cuesta alrededor de $ 250 .
Básicamente es un escáner de cama plana estándar, pero con la placa de vidrio yendo directamente al borde del escáner para que la página del libro se pueda colocar plana en la placa. Esto elimina la sombra del lomo y evita dañar los libros.
fuente