Evernote hace OCR en las imágenes que guardas en él. ¿Hay alguna manera de obtener el texto completo equivalente para una imagen en Evernote, o el OCR es solo para búsquedas?
Evernote API tiene funcionalidad para obtener texto y rectángulo donde este texto está presente dentro de la imagen. Consulte http://evernote.com/about/developer/api/evernote-api.htm , consulte "Formato XML de índice de reconocimiento de Evernote" y las funciones para recuperarlo. El problema es que no hacen OCR tradicional ... su algoritmo OCR puede producir diferentes palabras para una sola "palabra" en la imagen. Todo lo que usan para la búsqueda es, por lo que está bien para ellos, pero no está bien para usarlo como un motor de reconocimiento. (Aunque te dan peso para cada palabra alternativa, entonces quizás puedas usar eso)
Además, Evernote aparentemente no decide que una imagen en particular es equivalente a exactamente una palabra, por ejemplo, Evernote no determina que una imagen en particular sea "clave" y no "debida". Más bien, rastreará ambos, y una búsqueda de cualquiera de ellos devolvería la misma imagen. Por lo tanto, no hay forma de obtener un equivalente de texto completo porque Evernote no está decidiendo cuál es realmente el texto completo, solo lo que podría ser.
evernote paga una suma decente al creador del material ocr O paga una suma decente para que algo funcione en conjunto. por lo tanto, realmente dudo que te permitan obtener el texto extraído (+ posicionamiento en la imagen).
(podría ser un modelo de negocio, escanear imágenes de otras personas y proporcionar una buena OCR :)
Por tanto, la respuesta es no.
No estoy seguro de cuánta sofisticación necesita, pero como también uso Adobe Acrobat, simplemente hago clic derecho en mi archivo adjunto de Evernote para abrir con Acrobat.
Luego, desde Acrobat, selecciono "Documento | Reconocimiento de texto OCR", luego guardo el documento como texto sin formato.
Esto funciona bien para mí, ya que solo necesito una conversión ocasional de OCR.
fuente
Si pudieras sacar todas las imágenes de Evernote, podrías hacer el OCR con Google Docs.
Puede cargar una carpeta de imágenes en Google Docs y convertirlas a Documentos, que contendrán tanto la imagen como el texto OCR.
Luego puede descargar por lotes todos estos documentos como texto sin formato, lo que eliminará la imagen.
Si nombra todas las imágenes de Evernote con un hash (por ejemplo
md5
), debería ser fácil vincular archivos de texto sin formato descargados de Google Docs con la imagen original.fuente
Estoy en Windows y uso Adobe Acrobat Pro y Word, así que hago lo siguiente:
fuente