Identificar eventos relacionados con fechas en un párrafo

13

¿Existe un enfoque algorítmico para identificar que las fechas dadas en un párrafo se correlacionan con eventos (frases) particulares en el párrafo?

Ejemplo, considere el siguiente párrafo:

En junio de 1970, el gran líder hizo el juramento. Pero solo después de mayo de 1972, después de la muerte del Ministro de Estado, se hizo cargo de las riendas del país. Si bien disfrutó del apoyo popular hasta mediados de 1980, su influencia comenzó a disminuir a partir de entonces.

¿Existe un algoritmo (determinista o estocástico) # que pueda generar una tupla de 2 (fecha, evento), donde el evento implica, por el párrafo, que ocurrió en la fecha ? En el caso anterior:

  • (Junio ​​de 1970, el gran líder tomó juramento)
  • (Mayo de 1972, se hizo cargo de las riendas)

    o mejor aún

  • (Mayo de 1972, el gran líder se hizo cargo de las riendas)
  • (1980, caída en influencia)

#Más tarde

check123
fuente
2
Este problema parece contener tres fases: 1) extraer fechas, 2) extraer eventos y 3) correlacionar ambos conjuntos de datos. 1) es ciertamente factible y puedo imaginar una heurística decente para 3), pero ¿cómo espera resolver 2)?
Raphael
1
@Raphael ¡Agradable reformulación de mi pregunta!
check123
Bueno, ¿ tiene alguna información sobre 2), por ejemplo, un conjunto restringido de eventos interesantes (es decir, palabras)? ¿Desea extraer todos los pares de sustantivo / verbo siempre que tengan una fecha?
Raphael
¿Quieres extraer marcos de tiempo también? En su ejemplo, considere (<= May 1972, death of the Minister of State)o (<= Mid-1980, [the great leader] enjoyed popular support).
Raphael
@Raphael Perdón por la (muy) tardía respuesta. Con respecto a 2) No. Estoy intentando un enfoque generalizado.
check123

Respuestas:

4

En general, el problema de identificar fechas y otros marcadores temporales en el texto se llama el problema de extraer referencias temporales . La búsqueda vinculada lo llevará a documentos relacionados con esto.

Suresh
fuente
No sabía que el problema tenía un nombre. Buscaré más sobre eso y veré si puedo encontrar algo que valga la pena. :)
check123
2

Como pides un enfoque algorítmico, seré tan terco como un algoritmo. Lamento tratar esta pregunta de esta manera, pero como no parece un problema teórico complejo, sintetizaré los posibles enfoques.

Pregunta: ¿me puede dar una definición algorítmica de una fecha y de un evento en particular?

Si puede: Dado que su definición es algorítmica, probablemente se trate de algún tipo de gramática formal , y su problema será ajustar esa gramática para captar todos los casos que necesita considerar. (Me interesa si me puede dar una definición exacta que no sea una gramática formal)

Si no puede: entonces al menos puede encontrar ejemplos. Bien entonces. El mejor enfoque, y solo puedo pensar en él, son los algoritmos de aprendizaje automático, que tendrá que entrenar para reconocer sus fechas y luego sus eventos. (Usando un corpus de oraciones anotadas a mano) Sin embargo, esto es bastante exagerado en comparación con algunas expresiones regulares grandes hechas a mano que probablemente harán el trabajo. Si realmente quieres hacerlo, creo que lo más eficiente será este tipo de expresión regular dada como parámetro para el algoritmo de aprendizaje, pero es mejor que consultes a expertos en aprendizaje automático.

Buena suerte con esto, es mucho más fácil hablar de eso (en ambos casos).

jmad
fuente
1
Dicho esto, creo que combinar fechas y eventos definitivamente necesitará algunos modelos estocásticos.
Raphael
Fechas en la mayoría de los formatos que puedo capturar usando regexp. Con algo de lógica de programación, puedo extraer las oraciones alrededor de las fechas. El problema es que necesito un modelo o una distribución de probabilidad que, cuando un patrón de oración en particular, Ej .: El gato se comió el ratón el 25 de agosto. [<article> <noun> <verb> <article> <noun> <preposition> <date>], aparece entonces un (sub) conjunto del patrón, El gato se comió el mouse (en nuestro caso), se correlaciona con la fecha y (25 de agosto) con probabilidad z.
check123
@jmad Si no le importa, ¿podría ajustar el formato de su publicación? Usar el estilo de cita para una no cita (¿o una cita propia?) Es bastante confuso.
uli