He implementado el sistema NER con el uso del algoritmo CRF con mis características artesanales que dieron resultados bastante buenos. El caso es que utilicé muchas características diferentes, incluidas etiquetas POS y lemas.
Ahora quiero hacer el mismo NER para un idioma diferente. El problema aquí es que no puedo usar etiquetas POS ni lemas. Comencé a leer artículos sobre aprendizaje profundo y aprendizaje de características no supervisado.
Mi pregunta es:
¿Es posible utilizar métodos para el aprendizaje de funciones sin supervisión con el algoritmo CRF? ¿Alguien intentó esto y obtuvo algún buen resultado? ¿Hay algún artículo o tutorial sobre este asunto?
Todavía no entiendo completamente esta forma de creación de características, así que no quiero pasar mucho tiempo para algo que no funciona. Por lo tanto, cualquier información sería realmente útil. Crear un sistema NER completo basado en el aprendizaje profundo es demasiado por ahora.
fuente
En este artículo de 2014 ( GitHub ), los autores compararon múltiples estrategias para incorporar incrustaciones de palabras en un sistema NER basado en CRF, incluida la incrustación densa, la incrustación binerizada, la incrustación de conglomerados y un nuevo método prototipo . El uso de vectores densos directamente como lo sugiere vlad es la forma más sencilla pero también la menos efectiva en evaluaciones múltiples.
Implementé la idea del prototipo en mi proyecto NER específico de dominio y funciona bastante bien para mí.
fuente
Llego solo 5 meses tarde, pero con CRFSuite puedes usar esas funciones flotantes como números, no como cadenas. Para esto, solo necesita inventar una etiqueta única para cada dimensión y luego agregar un ":" seguido del valor.
Por ejemplo, una palabra "selva" se representa en 5 dimensiones: 0.1 0.4 0.8 0.2 0.9
Entonces CRFSuite tomaría esa palabra + característica como:
ETIQUETA f1: 0.1 f2: 0.4 f3: 0.8 f4: 0.2 f5: 0.9
donde, por supuesto, reemplaza `` LABEL '' por una cadena real y separa todos los espacios con pestañas (ese es el formato para CRFSuite).
Aunque no estoy seguro para otros paquetes.
fuente