¿Existe algún software (o pseudocódigo) que pueda escanear automáticamente un fragmento de texto (ya sea pegado en la herramienta o leído desde un .doc / .pdf) e identificar datos de citas utilizando formatos estándar? Los datos se dividirían en sus campos constituyentes y se exportarían en XML, CSV o en algún otro formato de datos estructurados. He examinado cb2Bib pero solo fue capaz de extraer el año de las referencias al estilo de Harvard, lo cual es insuficiente.
18
Respuestas:
Eche un vistazo a esta lista de analizadores de citas que pueden generar XML a partir del texto de entrada:
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (en modo de mantenimiento a partir del 1 de agosto de 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
Con freecite puede usar un
curl
comando para enviar citas de la siguiente manera (en PHP):fuente
En este momento (2017), el proyecto de código abierto más activo que implementa esto parece ser Anystyle Parser (última versión 07-2016). Se puede usar a través de una interfaz web, API o descargarse como RubyGem.
Mencionan explícitamente en su sitio web que la implementación está inspirada en ParsCit (última versión 2013?) Y FreeCite (último commit 2009).
También forman su sitio web:
Esa es una característica realmente genial, que hace que esta sea la implementación más interesante (en mi humilde opinión). La capacitación parece ser bastante sencilla, como se explica en la documentación de la API . Simplemente proporciona algunos resultados corregidos manualmente y ejecuta el
Anystyle.parser.train
comando. No estoy seguro de si ParsCit y FreeCite también admiten esto, pero si no lo hacen, esto me parece una gran diferencia de características.fuente
Pruebe una herramienta como Regex Buddy o Expresso .
Si no eres un programador, las expresiones regulares pueden ser un poco intimidantes, pero en realidad no son tan difíciles, especialmente con una herramienta decente como una de las anteriores.
Aquí hay un ejemplo de alguien que usa Expresiones regulares para extraer citas:
Citación que analiza la expresión regular
fuente
Mendeley debería poder hacer esto. Puede importar archivos PDF y luego exportar los metadatos a BibTeX, RIS y EndNote XML. Se puede descargar gratis y es multiplataforma.
Editar: probé esto en algunos documentos. La importación de PDF parece funcionar bien para referencias que están formateadas correctamente. Para un documento que creé usando LaTeX, todas las referencias con el autor en el formulario "Smith, J." o "J. Smith", etc., se importaron bien. Si el autor es una empresa (una sola palabra), o la referencia está incompleta, no funciona tan bien. Las referencias extraídas se pueden editar y exportar fácilmente a BibTeX, etc.
fuente
He visto un programa de Westlaw hacer eso por citas legales, pero eso probablemente no sea lo que estás buscando. Reference Manager podría hacer algo así para los formatos académicos, pero nunca lo he usado.
fuente
Pruebe http://www.crossref.org/guestquery/#stqsearch
Este es capaz de analizar automáticamente su texto de referencia y ofrece un enlace a un artículo en línea.
fuente
Zotero es un complemento para firefox que hace esto para contenido web. No estoy seguro si existe una herramienta similar para documentos / pdf
fuente
Esto probablemente pertenece más como un comentario a @Abhinav, pero zotero definitivamente solo maneja datos estructurados, como encontrará aquí:
http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools
Un truco interesante podría ser intentar escribir un programa que use cada cita como una consulta de búsqueda en su base de datos favorita, luego use algo como zotero para generar la información de referencia. También puede descargar información estructurada de servicios como citeUlike. ¡Avísame si terminas haciendo algo así! (ponlo en github si lo haces;).
fuente