Texto físico a texto digital

9

Permítanme prefijar esta pregunta con, no tengo idea de qué sitio de StackExchange sería el más apropiado para esta pregunta, pero pensé que LifeHacks podría funcionar ...

En 1998, el lado de la familia de mi madre tuvo una gran reunión familiar (mi bisabuela tuvo diez hijos, así que realmente fue una gran reunión). Uno de mis tíos lejanos escribió una especie de libro sobre la historia de nuestra familia para esta reunión y mi mamá me dio el libro para leer. No podía creer lo grande que es y cuánta investigación se realizó en el libro. Me gustaría encontrar una manera de obtener el libro completo en un sitio web que voy a hacer donde luego pueda compartirlo con todos en nuestra familia y, en última instancia, preservar la historia por más tiempo que este libro endeble.

Con la esperanza de no tener que escribir palabra por palabra en todo este libro de 300 páginas, ¿hay alguna manera de escanear las páginas y obtenerlas en texto digital? Obviamente, podría tomar fotos y crear el sitio web usando las imágenes, pero creo que sería más beneficioso tenerlo como texto real, ya que podría aparecer mejor en las búsquedas de Google cuando alguien busca el nombre de un familiar o algo así. Además, si alguien de la familia alguna vez hace un proyecto de investigación sobre nuestra familia, podrían copiar parte del texto y hacer referencia a él más fácilmente.

Entonces, ¿alguien sabe la mejor manera en que puedo incluir este viejo libro familiar en texto digital?

Portada del libro

Libro que indica grosor

Kyle Bridenstine
fuente

Respuestas:

14

Use un teléfono Android y la función " Google Lens " recientemente agregada a la aplicación de fotos y a la revisión de fotos de la cámara.

OCR a través de Google Lens es bastante sorprendente y preciso más allá de cualquier software de OCR que haya usado.

A continuación se presentan algunas capturas de pantalla que describen el procedimiento utilizando un Nokia 3 barato (100 USD) , el mejor teléfono que he tenido el placer de usar desde que mi querido Nexus 4 abandonó el fantasma.

Detallaré un escaneo OCR de muestra de un libro griego de etimologías impreso en 1976 que no me atrevo a desgarrar para escanear, que parece tener una densidad de caracteres y tipografía similares.

Tomé esta foto original en condiciones de iluminación menos que ideales, usando todos los ajustes automáticos en la cámara del teléfono regular, no se utilizaron técnicas especiales de fotografía o accesorios para mejorar el resultado, se podría decir que es solo una foto de un teléfono tomada por aficionados. página del libro . (Solo asegúrese de que el texto esté enfocado, ningún OCR descifrará el texto desenfocado borroso)

ingrese la descripción de la imagen aquí

Haga clic en el ícono de la lente de Google, disponible a través de la vista previa después de tomar la foto o en la foto usando la aplicación Google Photos

ingrese la descripción de la imagen aquí

Aquí está -Skynet- ^M^M^M^M^M^MQuiero decir, Google Lens está haciendo su escaneo mágico (los puntos son un poco espeluznantes, pero tuvieron que hacer algo para hacerle saber que la inteligencia artificial de Google está haciendo lo suyo, supongo)

ingrese la descripción de la imagen aquí

Una vez escaneada la imagen, encontrará las áreas de texto que Google Lens encontró en la imagen claramente delineadas y su texto ya extraído en la mitad inferior de la pantalla. Si solo desea algunas áreas y no otras, solo toque su selección para activarlas / desactivarlas.

Si toca el texto extraído, se colocará en su portapapeles para copiar / pegar en cualquier lugar de su teléfono.

ingrese la descripción de la imagen aquí

Luego, simplemente pegue el texto en un documento de Google Docs . Allí, puede: - corregir cualquier error allí mismo o en su PC, - compartir el documento al contenido de su corazón, - publicarlo como una página web con actualización en vivo de sus ediciones, o - exportar a - texto sin formato, - documento de Word , - documento de oficina abierta, - libro electrónico epub compatible con Kindle con texto de reflujo, o - PDF antiguo sin DRMd

Se podría argumentar que esta es probablemente la ruta más corta para publicar, con las opciones de salida más amplias posibles.

Puede hacerlo todo desde un solo dispositivo (teléfono Android con las aplicaciones apropiadas instaladas) y terminar con él en poco tiempo con una alta tasa de precisión, básicamente de forma gratuita.

Aquí está el fragmento de Google Docs pegado
ingrese la descripción de la imagen aquí

Aquí está el recurso compartido de URL de documentos de Google, no dude en comentar. También podría pedirle a alguien que lo ayude a editar el documento de forma remota y simultánea.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Finalmente, aquí hay un sitio web de Google Sites publicado utilizando el documento mencionado como fuente vinculada

https://sites.google.com/h-lo.me/ocrsample

Está habilitado para https, computadoras de escritorio y dispositivos móviles y, según los gustos, generalmente no es un dolor ocular. No está mal para un trabajo total de 15 minutos y sin codificación alguna.


Queda un refinamiento, y es crear párrafos apropiados en el documento de Google, ya que Google Lens inserta un retorno difícil después de cada línea de texto extraído, lo que hace que cada línea sea su propio párrafo y esto se convertirá en un problema si desea usar Funciones de Google Docs, como la tabla de contenido , o cuando exporta su documento a un libro electrónico compatible con Kindle e-pub (desordena el reflujo de texto)

Puede unir cada línea donde sea apropiado presionando la tecla de retroceso en cada inicio de línea, o esto podría automatizarse con un script.

Por lo tanto, estoy escribiendo un complemento de script de aplicaciones que publicaré en breve para automatizar este proceso. Te lo haré saber cuando esté hecho.

hlecuanda
fuente
Gran detalle. Me gusta esta solución gratuita. ¡Gracias!
Kyle Bridenstine
¡El gusto es mio! ¡Incluso puede tener todo lo que necesita! :)
hlecuanda
Para un libro grueso, este es un enfoque realmente laborioso: debe voltear manualmente cada página y luego fotografiarla.
Hobbes
6

Puedes hacer esto por etapas. Comience poniendo todo en línea como escaneos de página y actualizándolo cuando pueda. La encuadernación con peine de plástico cerlox ™ hace que desmontarlo y volver a colocarlo en la encuadernación sea fácil.

Como la impresión parece ser de tipo serif normal en el mismo tamaño, los escaneos se pueden digitalizar utilizando el software Optical Character Recognition. OCR puede proporcionarle un borrador de archivo de texto que puede revisar y publicar en el sitio web para su forma final.

Al mismo tiempo, puede ordenar las imágenes y otro material pictórico.

Puede hacerlo a medida que el tiempo / los recursos estén disponibles para el proyecto.

Stan
fuente
Similar a la respuesta anterior, pero no tan detallado.
Trajan Espelien
@TrajanEspelien ¿Qué respuesta anterior? Verifique la marca de tiempo. La respuesta fue primero, dos días antes de la presentación de hiecuanda. :)
Stan
Sí, pero no tiene tantos detalles como la otra respuesta, por eso acepté la otra sobre esto. No es el primero en llegar, es la mejor respuesta.
Kyle Bridenstine
@KyleBridenstine ¡No es broma! También voté a hiecuanda. Fue una gran respuesta. Por cierto, ¿qué pasa si no tienes un teléfono Android o no puedes acceder a Glass? Di una respuesta genérica para la pregunta. :)
Stan
1
@KyleBridenstine Gracias por las amables palabras. Estamos de acuerdo. Creo que hiciste lo correcto al esperar. La primera respuesta NO es la mejor (a menos que sea por alguna razón. Hay fechas límite, después de todo). Envié el enlace a su pregunta y la gran respuesta de hiecuanda a un colega que tiene que hacer lo mismo con una enorme pila de registros escolares de ¡Brasil!
Stan
2

Algunas buenas respuestas aquí para abordarlo usted mismo.

Me gustaría agregar mi experiencia de pagarle a otra persona para que lo haga por usted.

Solía Digitalización de mis libros en el Reino Unido (UK basa soy yo).

Estuve muy, muy satisfecho con los resultados: cada libro se devuelve como un PDF que tiene texto de búsqueda (y copiable). Se utiliza una técnica PDF estándar en la que se conserva la imagen original de cada página pero con una superposición de texto, de modo que pueda resaltar el texto original en la página. Muy buen valor. Como alguien en el extranjero desde el Reino Unido, aún puede enviarles los libros.

También ofrecen una opción para que el libro esté en formato de documento de Word editable, a un costo adicional pero muy razonable.

Si no necesita que se devuelva el original, la opción más barata sería elegir un escaneo destructivo. Aquí es donde las páginas se toman individualmente del libro y se escanean. De manera predeterminada, el libro original no se devuelve, aunque creo que puede solicitarlo, posiblemente a un costo adicional (por ejemplo, para el franqueo de devolución), pero las páginas estarán sueltas, ya que se eliminaron para escanearlas individualmente. El escaneo destructivo es la opción que elegí para todos mis libros y no exigí la devolución de los originales.

También ofrecen copias no destructivas si necesita el original, pero el costo es mayor. También aceptan sus propios escaneos digitales si ya ha escaneado un libro usted mismo; pueden convertirlo en documentos PDF o Word con capacidad de copia y búsqueda.

Echa un vistazo a su sitio web. Realmente creo que esta es la mejor opción: gastar dinero para ahorrar tiempo, en lugar de gastar tiempo para ahorrar dinero.

No trabajo para Digitize My Books, ni tengo ningún interés financiero en ellos (accionistas u otros).

Originalmente había comenzado a "escanear" en los libros yo mismo, fotografiando usando una cámara DSLR (la fotografía es más rápida que el escaneo plano) con cada página abierta con un clip del portapapeles y blu-tak. Pero descubrí que esto es bastante laborioso.

Si todavía está interesado en hacerlo usted mismo, ScanTailor es una aplicación de código abierto de Windows que formateará, dividirá páginas dobles / pares de páginas escaneadas en páginas individuales, las enderezará y "enderezará". Para que las páginas resultantes aparezcan planas y rectas como se desee, sin embargo, no hace OCR: los resultados siguen siendo imágenes de mapa de bits. Pero al menos sirve de algo para automatizar por lotes ordenando cualquier distorsión de las páginas, particularmente de copia no destructiva donde es difícil para uno organizar las páginas para que sean completamente planas para libros grandes.

Actualizado

Se agregó más información sobre las opciones de escaneo que ofrece un servicio. ScanTailor más información. Correcciones gramaticales.

therobyouknow
fuente
1

La forma más rápida de hacer esto es contactar a su pariente y ver si todavía tienen los archivos originales que usaron para crear ese libro. De la foto de la portada, diría que se hizo en una computadora. Convierta de {insertar un paquete de procesador de texto realmente antiguo aquí} a un formato actual y ya está.

La segunda forma más rápida de convertir una pila de material impreso en un documento digital:

  1. Retirar la encuadernación.
  2. Corta el borde izquierdo de las páginas para deshacerte de los agujeros. Los agujeros interfieren con un alimentador de documentos.
  3. Revisa el libro y despliega los pliegues y otros daños que interfieran con un alimentador de documentos.
  4. Encuentre cualquier impresora dúplex razonablemente moderna que tenga un alimentador de documentos y una función de escaneo. Escanear a PDF.

Luego use cualquier paquete de OCR para convertir las páginas escaneadas en un archivo de Word. Utilizo las funciones de OCR en la versión completa de Adobe Acrobat para este propósito, pero hay muchos motores de OCR.

Hobbes
fuente
0

Es posible que desee probar un servicio muy económico: preserve-your-memories.info. Cuando lo hago, utilizo mi escáner para escanear a OmniPage, un programa de OCR, y luego guardarlo como un archivo PDF que se puede buscar por completo. Dado que su publicación está encuadernada con un peine de plástico, es fácil de desmontar para escanear páginas individuales y luego volver a unir. Tomar fotografías como se describe en las sugerencias anteriores también es muy factible, una buena opción entre muchos enfoques.

Alan
fuente