¿Hay algún artículo o discusión sobre la extracción de parte del texto que contenga la mayor parte de la información sobre el documento actual?
Por ejemplo, tengo un gran corpus de documentos del mismo dominio. Hay partes del texto que contienen la información clave de la que habla un solo documento. Quiero extraer algunas de esas partes y usarlas como una especie de resumen del texto. ¿Existe alguna documentación útil sobre cómo lograr algo como esto?
Sería realmente útil si alguien pudiera señalarme en la dirección correcta lo que debería buscar o leer para obtener una idea del trabajo que ya podría haberse realizado en este campo del procesamiento del lenguaje natural.
fuente
Muchas técnicas de extracción de palabras clave dependen de factores como:
Pero, en general, si tiene un texto largo y desea extraer palabras clave automáticamente, le recomendaría que siga los siguientes artículos:
TextRank
RAKE [extracción automática rápida de palabras clave]
Topica
También para extraer palabras clave personalizadas (especiales) que no están llegando a través de las técnicas anteriores, eche un vistazo a la publicación a continuación:
Extraiga palabras clave personalizadas con el etiquetador NLTK POS en python
fuente