Uso de la agrupación en el procesamiento de texto

11

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras de cuatro caracteres y más. Luego uso esto como la característica de cada muestra de entrenamiento. Ahora quiero que mi algoritmo pueda agrupar los conjuntos de entrenamiento según sus características, que aquí es la frecuencia de cada palabra en el artículo. (Tenga en cuenta que en este ejemplo, cada artículo tendría su propia característica única, ya que cada artículo tiene una característica diferente, por ejemplo, un artículo tiene 10 "agua y 23" puro "y otro tiene 8" política "y 14" apalancamiento "). ¿Puede sugerir el mejor algoritmo de agrupamiento posible para este ejemplo?

text-mining clustering Rashid
fuente

5

No sé si alguna vez leíste SenseCluster por Ted Pedersen: http://senseclusters.sourceforge.net/ . Muy buen papel para agrupar los sentidos.

Además, cuando analice palabras, piense que "computadora", "computadoras", "informática" ... representan un concepto, por lo que solo una característica. Muy importante para un correcto análisis.

Para hablar sobre el algoritmo de agrupación, puede utilizar una agrupación jerárquica . En cada paso del algo, fusiona los 2 textos más similares de acuerdo con sus características (usando una medida de disimilitud, distancia euclidiana, por ejemplo). Con esa medida de disimilitud, puede encontrar el mejor número de grupos y, por lo tanto, el mejor grupo para sus textos y artículos.

Buena suerte :)

JC R
fuente

6

Si desea continuar en su camino existente, sugiero que se normalice la frecuencia de cada término por su popularidad en todo el corpus, por lo que se promueven palabras raras y, por lo tanto, predictivas. Luego, use proyecciones aleatorias para reducir la dimensionalidad de estos vectores muy largos hasta el tamaño para que su algoritmo de agrupación funcione mejor (no desea agrupar en espacios de alta dimensión).

Pero hay otras formas de modelar temas. Lea este tutorial para obtener más información.

Emre
fuente

2

No puedo decir que sea el mejor, pero el análisis semántico latente podría ser una opción. Básicamente se basa en la coincidencia, primero debe sopesarlo.

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

El problema es que LSA no tiene un soporte estadístico firme.

Que te diviertas

Chen Guo
fuente

0

Una forma de clasificar el texto es calculando la Frecuencia del término y la Frecuencia del documento inverso. Puede consultar este documento: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

Rajan Kumar Kharel
fuente

Uso de la agrupación en el procesamiento de texto

Respuestas: