Análisis automático del texto de citas en referencias académicas.

18

¿Existe algún software (o pseudocódigo) que pueda escanear automáticamente un fragmento de texto (ya sea pegado en la herramienta o leído desde un .doc / .pdf) e identificar datos de citas utilizando formatos estándar? Los datos se dividirían en sus campos constituyentes y se exportarían en XML, CSV o en algún otro formato de datos estructurados. He examinado cb2Bib pero solo fue capaz de extraer el año de las referencias al estilo de Harvard, lo cual es insuficiente.

Alistair Knock
fuente
¿Desea escanear el texto mismo o solo la sección de referencias?
innaM
Solo las referencias: probablemente sea un documento que contenga publicaciones personales.
Alistair Knock
No estoy seguro de si esto es lo que podrías necesitar, pero puedes probar esto refhive.com
Mostafa Elmoghazi

Respuestas:

4

Eche un vistazo a esta lista de analizadores de citas que pueden generar XML a partir del texto de entrada:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (en modo de mantenimiento a partir del 1 de agosto de 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

Con freecite puede usar un curlcomando para enviar citas de la siguiente manera (en PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );
BARRILETE
fuente
Otra opción es github.com/inspirehep/refextract . No se basa en ML pero funcionó muy bien en mis pruebas.
Josir
3

En este momento (2017), el proyecto de código abierto más activo que implementa esto parece ser Anystyle Parser (última versión 07-2016). Se puede usar a través de una interfaz web, API o descargarse como RubyGem.

Mencionan explícitamente en su sitio web que la implementación está inspirada en ParsCit (última versión 2013?) Y FreeCite (último commit 2009).

También forman su sitio web:

AnyStyle Parser utiliza poderosas heurísticas de aprendizaje automático basadas en campos aleatorios condicionales que pueden ser entrenados por todos utilizando nuestro editor incorporado.

Esa es una característica realmente genial, que hace que esta sea la implementación más interesante (en mi humilde opinión). La capacitación parece ser bastante sencilla, como se explica en la documentación de la API . Simplemente proporciona algunos resultados corregidos manualmente y ejecuta el Anystyle.parser.traincomando. No estoy seguro de si ParsCit y FreeCite también admiten esto, pero si no lo hacen, esto me parece una gran diferencia de características.

Wouter
fuente
Con la excepción de Anystyle Parser, todos se mencionan en la respuesta más votada actualmente. ¿Qué los hace destacar realmente? ¿Cuáles serían las ventajas o desventajas dada la pregunta original?
Seth
Ah, de hecho. Editaré y mejoraré mi respuesta. Gracias por señalar eso.
Wouter
Parece que está muerto ahora.
experto
1
@ Brandon: He publicado un CÓMO aquí: github.com/inukshuk/wapiti-ruby/issues/3
Wouter
1
Eso se ve genial, gracias! Como alguien que nunca ha tocado el rubí, será de gran ayuda.
Brandon
2

Pruebe una herramienta como Regex Buddy o Expresso .

Si no eres un programador, las expresiones regulares pueden ser un poco intimidantes, pero en realidad no son tan difíciles, especialmente con una herramienta decente como una de las anteriores.

Aquí hay un ejemplo de alguien que usa Expresiones regulares para extraer citas:

Citación que analiza la expresión regular

Ceniza
fuente
1

Mendeley debería poder hacer esto. Puede importar archivos PDF y luego exportar los metadatos a BibTeX, RIS y EndNote XML. Se puede descargar gratis y es multiplataforma.

Editar: probé esto en algunos documentos. La importación de PDF parece funcionar bien para referencias que están formateadas correctamente. Para un documento que creé usando LaTeX, todas las referencias con el autor en el formulario "Smith, J." o "J. Smith", etc., se importaron bien. Si el autor es una empresa (una sola palabra), o la referencia está incompleta, no funciona tan bien. Las referencias extraídas se pueden editar y exportar fácilmente a BibTeX, etc.

sblair
fuente
2
"Esta característica se eliminó en Mendeley 0.9.7 porque consumía una buena cantidad de recursos (cliente y servidor) sin proporcionar suficiente valor. Planeamos reintroducirla en una forma mejorada en el futuro". ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/…
iceman
1

He visto un programa de Westlaw hacer eso por citas legales, pero eso probablemente no sea lo que estás buscando. Reference Manager podría hacer algo así para los formatos académicos, pero nunca lo he usado.

Kaypro II
fuente
0

Zotero es un complemento para firefox que hace esto para contenido web. No estoy seguro si existe una herramienta similar para documentos / pdf

Abhinav
fuente
1
Sé que esto no es exactamente lo que Zotero está diseñado para hacer, pero si apuntaste a Firefox a un archivo de texto o html con los datos relevantes, Zotero podría reconocer las referencias y luego podría agregarlo a la biblioteca de Zotero y exportar el toda la biblioteca en el formato que desee (sé que Zotero admite muchos formatos). Sin embargo, esto sería doloroso para una gran cantidad de archivos.
nedned
No veo cómo Zotero hace lo que pide el OP. Lo he instalado, pero parece que no hay opción para analizar una referencia.
Rikki
Zotero analiza citas de sitios web especialmente codificados, no de texto normal.
Ochado
0

Esto probablemente pertenece más como un comentario a @Abhinav, pero zotero definitivamente solo maneja datos estructurados, como encontrará aquí:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Un truco interesante podría ser intentar escribir un programa que use cada cita como una consulta de búsqueda en su base de datos favorita, luego use algo como zotero para generar la información de referencia. También puede descargar información estructurada de servicios como citeUlike. ¡Avísame si terminas haciendo algo así! (ponlo en github si lo haces;).

Dav Clark
fuente