He estado trabajando en NLTK por un tiempo usando Python. El problema al que me enfrento es que no hay ayuda disponible para entrenar NER en NLTK con mis datos personalizados. Han usado MaxEnt y lo han entrenado en ACE corpus. He buscado mucho en la web pero no pude encontrar ninguna manera de entrenar el NER de NLTK.
Si alguien me puede proporcionar algún enlace / artículo / blog, etc., que me pueda dirigir al formato de conjuntos de datos de capacitación utilizado en el entrenamiento NER de NLTK para que pueda preparar mis conjuntos de datos en ese formato en particular. Y si me dirigen a algún enlace / artículo / blog, etc. que pueda ayudarme a ENTRENAR el NER de NLTK para mis propios datos.
Esta es una pregunta ampliamente buscada y menos respondida. Puede ser útil para alguien en el futuro que trabaje con NER.
fuente
Respuestas:
La capacitación de un modelo, relacionado con la extracción de información , en general, y el reconocimiento / resolución de entidad nombrada (NER) , en particular, se describe en detalle en el Capítulo 7 del Libro NLTK , disponible en línea en esta URL: http: //www.nltk .org / book / ch07.html .
Además, creo que puede encontrar útil mi respuesta relacionada en el sitio de validación cruzada . Tiene muchas referencias a fuentes relevantes sobre NER y temas relacionados, así como a varias herramientas de software relacionadas .
fuente
¿Es este artículo lo suficientemente bueno? http://www.succeed-project.eu/wiki/index.php/NLTK#Input_format_for_training
Hay una explicación sobre cómo debería verse el cuerpo.
Sus datos deben estar en formato IOB (etiqueta de palabra chunktag) para que funcionen.
Eric NNP B-PERSON
es VB O
el
CEO de AT B-NP NN I-NP
de IN O
Google NNP B-ORGANIZATION
fuente
Encontré este tutorial bastante útil: guía completa para construir su propio Reconocimiento de entidad con nombre con Python . Utiliza el corpus del Banco de significado de Groninga (GMB) para entrenar su porción NER.
Después de eso, puede consultar este tutorial de la misma persona: Entrenando un sistema NER usando un gran conjunto de datos Donde usa scikit learn para mejorar el rendimiento de su sistema.
Finalmente, algunos tutoriales realmente útiles se pueden encontrar aquí: tutorial NLTK Este tipo tiene un canal de youtube con muchos tutoriales en muchas materias (ML, NLP, Python ...)
Espero eso ayude.
fuente