PNL - ¿Es el Gazetteer un tramposo?

16

En PNL, existe el concepto de Gazetteerque puede ser bastante útil para crear anotaciones. Hasta donde yo entiendo:

Un diccionario geográfico consiste en un conjunto de listas que contienen nombres de entidades como ciudades, organizaciones, días de la semana, etc. Estas listas se utilizan para encontrar las ocurrencias de estos nombres en el texto, por ejemplo, para la tarea de reconocimiento de entidades con nombre.

Por lo tanto, es esencialmente una búsqueda. ¿No es este un tipo de trampa? Si usamos a Gazetteerpara detectar entidades con nombre, entonces no está Natural Language Processingsucediendo mucho . Idealmente, me gustaría detectar entidades con nombre utilizando NLPtécnicas. De lo contrario, ¿cómo es mejor que un patrón de expresiones regulares?

AbtPst
fuente
2
No lo llamaría trampa per se ... a menos que haya sido diseñado específicamente para usar una solución de búsqueda que no sea de diccionario. Tampoco lo llamaría PNL tradicional, aunque nunca debe pasar por alto el kilometraje sustancial que puede obtener de una solución simple a un problema.
Kyle.
1
Tal vez podría usarlo para entrenar a un reconocedor de entidad con nombre. ¿Qué va a hacer su diccionario geográfico sobre las entidades que no están en su corpus?
Emre
Esperaba que al usar correctamente las etiquetas de posición y la fragmentación de sustantivos nunca necesitaría un diccionario geográfico. ¿es eso posible?
AbtPst
2
En la industria no existe el engaño. :-) Pero de todos modos, si quieres un "enfoque general", debes comenzar con algunos datos anotados a mano, es decir, semilla, para aprender los contextos en los que aparecen los NE, para aprender más.
Adam Bittlingmayer

Respuestas:

15

El diccionario geográfico o cualquier otra opción de función de tamaño intencionalmente fijo parece un enfoque muy popular en los documentos académicos , cuando tiene un problema de tamaño finito, por ejemplo NER en un corpus fijo, o etiquetado POS o cualquier otra cosa. No lo consideraría hacer trampa a menos que la única característica que usará sea la coincidencia del diccionario geográfico.

Sin embargo, cuando entrena cualquier tipo de modelo de PNL, que se basa en el diccionario durante el entrenamiento, puede obtener un rendimiento del mundo real mucho más bajo de lo que informaría su prueba inicial, a menos que pueda incluir todos los objetos de interés en el diccionario geográfico (y por qué entonces ¿necesita ese modelo?) porque su modelo entrenado dependerá de la característica en algún momento y, en el caso de que otras características sean demasiado débiles o no descriptivas, no se reconocerán nuevos objetos de interés.

Si utiliza un diccionario geográfico en sus modelos, debe asegurarse de que esa función tenga una función de contador para permitir que el modelo se equilibre, de modo que la simple coincidencia de diccionario no sea la única característica de la clase positiva (y lo más importante, el diccionario geográfico debería no solo coincide con ejemplos positivos, sino también negativos).

Por ejemplo, suponga que tiene un conjunto completo de variaciones infinitas de todos los nombres de personas, lo que hace que la persona general NER sea irrelevante, pero ahora intenta decidir si el objeto mencionado en el texto es capaz de cantar. Confiarás en las características de inclusión en tu diccionario geográfico de la Persona, que te darán muchos falsos positivos; luego, agregará una característica centrada en el verbo de " Es sujeto del verbo cantar ", y eso probablemente le dará falsos positivos de todo tipo de objetos como pájaros, su estómago cuando tiene hambre y un tipo borracho que piensapuede cantar (pero seamos honestos, no puede), pero esa característica centrada en el verbo se equilibrará con el diccionario geográfico de su persona para asignar una clase positiva de 'Cantante' a personas y no a animales u otros objetos. Sin embargo, no resuelve el caso del artista borracho.

chewpakabra
fuente
4

Usar una lista de entidades tiene algunas desventajas:

  • La lista esta cerrada
  • La lista no es sensible al contexto. Necesita contexto para diferenciar entre "una casa blanca" y "la casa blanca".
  • La construcción de listas requiere mucha mano de obra
  • La lista también puede contener errores.
  • Se siente como hacer trampa (o en la lista no se utilizan conocimientos de PNL).

Puede hacer frente a estas desventajas siguiendo la dirección @emre sugerida y usar la lista para aprender un clasificador.

Por ejemplo, puede usar tokens cerca de la entidad y aprender una regla como "Vivo en X" es un indicador de un lugar y "Hablé con X" es un indicador de una persona. Puedes jugar este juego algunas rondas aumentando tu lista por los aciertos de las reglas y usar la nueva lista para obtener más información.

Tenga en cuenta que en este aprendizaje introducirá ruido en los datos, por lo que en la mayoría de los casos el aprendizaje debería ser tan sencillo.

DaL
fuente