Preguntas etiquetadas con k-means

k-means es un método para dividir datos en clusters al encontrar un número específico de medias, k, st cuando los datos se asignan a clusters w / la media más cercana, la suma de cuadrados w / i cluster se minimiza

78
Agrupación en la salida de t-SNE

Tengo una aplicación en la que sería útil agrupar un conjunto de datos ruidoso antes de buscar efectos de subgrupo dentro de los grupos. Primero examiné PCA, pero se necesitan ~ 30 componentes para llegar al 90% de la variabilidad, por lo que agrupar en solo un par de PC arrojará mucha información....

54
¿Cómo decidir sobre el número correcto de grupos?

Encontramos los centros de clúster y asignamos puntos a k diferentes agrupaciones de clústeres en k-means clustering, que es un algoritmo muy conocido y se encuentra en casi todos los paquetes de aprendizaje automático en la red. Pero la parte faltante y más importante en mi opinión es la elección...

44
¿Es importante escalar los datos antes de la agrupación?

Encontré este tutorial , que sugiere que debe ejecutar la función de escala en las características antes de la agrupación (creo que convierte los datos en puntuaciones z). Me pregunto si eso es necesario. Lo pregunto principalmente porque hay un buen punto de codo cuando no escalo los datos, pero...

29
Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático

Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

24
Determine diferentes grupos de datos 1d de la base de datos

Tengo una tabla de base de datos de transferencias de datos entre diferentes nodos. Esta es una gran base de datos (con casi 40 millones de transferencias). Uno de los atributos es el número de transferencias de bytes (nbytes) que varían de 0 bytes a 2 tera bytes. Me gustaría agrupar los nbytes de...