Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras de cuatro caracteres y más. Luego uso esto como la característica de cada muestra de entrenamiento. Ahora quiero que mi algoritmo pueda agrupar los conjuntos de entrenamiento según sus características, que aquí es la frecuencia de cada palabra en el artículo. (Tenga en cuenta que en este ejemplo, cada artículo tendría su propia característica única, ya que cada artículo tiene una característica diferente, por ejemplo, un artículo tiene 10 "agua y 23" puro "y otro tiene 8" política "y 14" apalancamiento "). ¿Puede sugerir el mejor algoritmo de agrupamiento posible para este ejemplo?
fuente