Extrae la mayoría de las partes informativas del texto de los documentos.

16

¿Hay algún artículo o discusión sobre la extracción de parte del texto que contenga la mayor parte de la información sobre el documento actual?

Por ejemplo, tengo un gran corpus de documentos del mismo dominio. Hay partes del texto que contienen la información clave de la que habla un solo documento. Quiero extraer algunas de esas partes y usarlas como una especie de resumen del texto. ¿Existe alguna documentación útil sobre cómo lograr algo como esto?

Sería realmente útil si alguien pudiera señalarme en la dirección correcta lo que debería buscar o leer para obtener una idea del trabajo que ya podría haberse realizado en este campo del procesamiento del lenguaje natural.

MaticDiba
fuente

Respuestas:

23

Lo que está describiendo a menudo se logra utilizando una combinación simple de TF-IDF y resumen resumido .

En pocas palabras, TF-IDF le dice la importancia relativa de cada palabra en cada documento, en comparación con el resto de su corpus. En este punto, tiene una puntuación para cada palabra en cada documento que se aproxima a su "importancia". Luego, puede usar estos puntajes de palabras individuales para calcular un puntaje compuesto para cada oración sumando los puntajes de cada palabra en cada oración. Finalmente, simplemente tome las oraciones de puntaje N principales de cada documento como su resumen.

A principios de este año, armé un cuaderno de iPython que culmina con una implementación de esto en Python usando NLTK y Scikit-learn: A Smattering of NLP en Python .

Charlie Greenbacker
fuente
2
Sí, eso probablemente sea todo. También podría agregar pesos adicionales a algunas palabras, que ya sé que son informativas. Gracias por su ayuda y enlaces útiles.
MaticDiba
Entonces, ¿puedo usar esto en un pdf? :)
Adam
Sí, puede usar esto en el texto en un PDF, suponiendo que ya haya extraído el texto sin formato del PDF usando algo como pdftotext.
Charlie Greenbacker
1

Muchas técnicas de extracción de palabras clave dependen de factores como:

  1. Calidad gramatical del texto
  2. Longitud del texto
  3. Ya sea que esté buscando una sola palabra clave o una palabra clave, etc.

Pero, en general, si tiene un texto largo y desea extraer palabras clave automáticamente, le recomendaría que siga los siguientes artículos:

  1. TextRank

  2. RAKE [extracción automática rápida de palabras clave]

  3. Topica

También para extraer palabras clave personalizadas (especiales) que no están llegando a través de las técnicas anteriores, eche un vistazo a la publicación a continuación:

Extraiga palabras clave personalizadas con el etiquetador NLTK POS en python

anindya
fuente