Extraer texto de OCR de Evernote

13

Evernote hace OCR en las imágenes que guardas en él. ¿Hay alguna manera de obtener el texto completo equivalente para una imagen en Evernote, o el OCR es solo para búsquedas?

Leigh Riffel
fuente

Respuestas:

15

Evernote API tiene funcionalidad para obtener texto y rectángulo donde este texto está presente dentro de la imagen. Consulte http://evernote.com/about/developer/api/evernote-api.htm , consulte "Formato XML de índice de reconocimiento de Evernote" y las funciones para recuperarlo. El problema es que no hacen OCR tradicional ... su algoritmo OCR puede producir diferentes palabras para una sola "palabra" en la imagen. Todo lo que usan para la búsqueda es, por lo que está bien para ellos, pero no está bien para usarlo como un motor de reconocimiento. (Aunque te dan peso para cada palabra alternativa, entonces quizás puedas usar eso)

Peter Štibraný
fuente
11

Además, Evernote aparentemente no decide que una imagen en particular es equivalente a exactamente una palabra, por ejemplo, Evernote no determina que una imagen en particular sea "clave" y no "debida". Más bien, rastreará ambos, y una búsqueda de cualquiera de ellos devolvería la misma imagen. Por lo tanto, no hay forma de obtener un equivalente de texto completo porque Evernote no está decidiendo cuál es realmente el texto completo, solo lo que podría ser.

Mike Dunham
fuente
5

evernote paga una suma decente al creador del material ocr O paga una suma decente para que algo funcione en conjunto. por lo tanto, realmente dudo que te permitan obtener el texto extraído (+ posicionamiento en la imagen).

(podría ser un modelo de negocio, escanear imágenes de otras personas y proporcionar una buena OCR :)

Por tanto, la respuesta es no.

akira
fuente
3
Esto no es verdad Hay API para obtener exactamente esta información. Mira mi respuesta.
Peter Štibraný
2

No estoy seguro de cuánta sofisticación necesita, pero como también uso Adobe Acrobat, simplemente hago clic derecho en mi archivo adjunto de Evernote para abrir con Acrobat.

Luego, desde Acrobat, selecciono "Documento | Reconocimiento de texto OCR", luego guardo el documento como texto sin formato.

Esto funciona bien para mí, ya que solo necesito una conversión ocasional de OCR.

Bruce Kessel
fuente
1

Si pudieras sacar todas las imágenes de Evernote, podrías hacer el OCR con Google Docs.

Puede cargar una carpeta de imágenes en Google Docs y convertirlas a Documentos, que contendrán tanto la imagen como el texto OCR.

Luego puede descargar por lotes todos estos documentos como texto sin formato, lo que eliminará la imagen.

Si nombra todas las imágenes de Evernote con un hash (por ejemplo md5), debería ser fácil vincular archivos de texto sin formato descargados de Google Docs con la imagen original.

Max Masnick
fuente
0

Estoy en Windows y uso Adobe Acrobat Pro y Word, así que hago lo siguiente:

  1. si el archivo no se guarda como JPG, haga clic en el icono del globo ocular en la esquina superior izquierda de la imagen en Evernote para abrirlo en Photo Viewer y haga clic en Archivo> "Hacer una copia" para guardarlo como JPG
  2. busque el archivo de imagen en el Explorador
  3. haga clic derecho sobre él y seleccione Convertir a Adobe PDF (el archivo se abrirá en Acrobat)
  4. haga clic en Archivo> Guardar como y seleccione Formato de texto enriquecido en el menú desplegable "Guardar como tipo" para guardarlo como un archivo de texto enriquecido (toma un minuto procesar el archivo)
  5. busque el archivo RTF en el Explorador y haga doble clic para abrir en Word
  6. editar según sea necesario
Pete Nikolai
fuente
Esto parece ser un consejo sobre cómo extraer texto de un archivo de imagen determinado, no una imagen en Evernote. ¿Puede aclarar cómo esto responde a la pregunta original, y lo hace de una manera que las respuestas anteriores y aceptadas no lo hacen?
music2myear