En PNL, existe el concepto de Gazetteer
que puede ser bastante útil para crear anotaciones. Hasta donde yo entiendo:
Un diccionario geográfico consiste en un conjunto de listas que contienen nombres de entidades como ciudades, organizaciones, días de la semana, etc. Estas listas se utilizan para encontrar las ocurrencias de estos nombres en el texto, por ejemplo, para la tarea de reconocimiento de entidades con nombre.
Por lo tanto, es esencialmente una búsqueda. ¿No es este un tipo de trampa? Si usamos a Gazetteer
para detectar entidades con nombre, entonces no está Natural Language Processing
sucediendo mucho . Idealmente, me gustaría detectar entidades con nombre utilizando NLP
técnicas. De lo contrario, ¿cómo es mejor que un patrón de expresiones regulares?
fuente
Respuestas:
El diccionario geográfico o cualquier otra opción de función de tamaño intencionalmente fijo parece un enfoque muy popular en los documentos académicos , cuando tiene un problema de tamaño finito, por ejemplo NER en un corpus fijo, o etiquetado POS o cualquier otra cosa. No lo consideraría hacer trampa a menos que la única característica que usará sea la coincidencia del diccionario geográfico.
Sin embargo, cuando entrena cualquier tipo de modelo de PNL, que se basa en el diccionario durante el entrenamiento, puede obtener un rendimiento del mundo real mucho más bajo de lo que informaría su prueba inicial, a menos que pueda incluir todos los objetos de interés en el diccionario geográfico (y por qué entonces ¿necesita ese modelo?) porque su modelo entrenado dependerá de la característica en algún momento y, en el caso de que otras características sean demasiado débiles o no descriptivas, no se reconocerán nuevos objetos de interés.
Si utiliza un diccionario geográfico en sus modelos, debe asegurarse de que esa función tenga una función de contador para permitir que el modelo se equilibre, de modo que la simple coincidencia de diccionario no sea la única característica de la clase positiva (y lo más importante, el diccionario geográfico debería no solo coincide con ejemplos positivos, sino también negativos).
Por ejemplo, suponga que tiene un conjunto completo de variaciones infinitas de todos los nombres de personas, lo que hace que la persona general NER sea irrelevante, pero ahora intenta decidir si el objeto mencionado en el texto es capaz de cantar. Confiarás en las características de inclusión en tu diccionario geográfico de la Persona, que te darán muchos falsos positivos; luego, agregará una característica centrada en el verbo de " Es sujeto del verbo cantar ", y eso probablemente le dará falsos positivos de todo tipo de objetos como pájaros, su estómago cuando tiene hambre y un tipo borracho que piensapuede cantar (pero seamos honestos, no puede), pero esa característica centrada en el verbo se equilibrará con el diccionario geográfico de su persona para asignar una clase positiva de 'Cantante' a personas y no a animales u otros objetos. Sin embargo, no resuelve el caso del artista borracho.
fuente
Usar una lista de entidades tiene algunas desventajas:
Puede hacer frente a estas desventajas siguiendo la dirección @emre sugerida y usar la lista para aprender un clasificador.
Por ejemplo, puede usar tokens cerca de la entidad y aprender una regla como "Vivo en X" es un indicador de un lugar y "Hablé con X" es un indicador de una persona. Puedes jugar este juego algunas rondas aumentando tu lista por los aciertos de las reglas y usar la nueva lista para obtener más información.
Tenga en cuenta que en este aprendizaje introducirá ruido en los datos, por lo que en la mayoría de los casos el aprendizaje debería ser tan sencillo.
fuente