Tengo el problema de agrupar una gran cantidad de oraciones en grupos por sus significados. Esto es similar a un problema cuando tienes muchas oraciones y quieres agruparlas por sus significados.
¿Qué algoritmos se sugieren para hacer esto? No sé la cantidad de clústeres de antemano (y a medida que llegan más datos, los clústeres también pueden cambiar), ¿qué características se usan normalmente para representar cada oración?
Estoy probando ahora las características más simples con solo una lista de palabras y la distancia entre oraciones definidas como:
(A y B son conjuntos de palabras correspondientes en la oración A y B)
¿Tiene sentido?
Estoy tratando de aplicar el algoritmo Mean-Shift de la biblioteca scikit a esta distancia, ya que no requiere una cantidad de grupos por adelantado.
Si alguien aconseja mejores métodos / enfoques para el problema, será muy apreciado ya que todavía soy nuevo en el tema.
fuente