Preguntas etiquetadas con clustering

El análisis de conglomerados es la tarea de dividir los datos en subconjuntos de objetos de acuerdo con su "similitud" mutua, sin utilizar el conocimiento preexistente como las etiquetas de clase. [Los errores estándar agrupados y / o las muestras de agrupación deben etiquetarse como tales; NO use la etiqueta de "agrupamiento" para ellos.]

78
Un ejemplo: regresión LASSO usando glmnet para el resultado binario

Estoy empezando a incursionar con el uso de glmnetla LASSO regresión donde mi resultado de interés es dicotómica. He creado un pequeño marco de datos simulados a continuación: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84,...

78
Agrupación en la salida de t-SNE

Tengo una aplicación en la que sería útil agrupar un conjunto de datos ruidoso antes de buscar efectos de subgrupo dentro de los grupos. Primero examiné PCA, pero se necesitan ~ 30 componentes para llegar al 90% de la variabilidad, por lo que agrupar en solo un par de PC arrojará mucha información....

73
Elegir un método de agrupamiento

Cuando se utiliza el análisis de conglomerados en un conjunto de datos para agrupar casos similares, es necesario elegir entre una gran cantidad de métodos de agrupamiento y medidas de distancia. A veces, una opción puede influir en la otra, pero hay muchas combinaciones posibles de métodos....

61
¿Dónde cortar un dendrograma?

La agrupación jerárquica se puede representar mediante un dendrograma. Cortar un dendrograma a cierto nivel da un conjunto de grupos. Cortar a otro nivel da otro conjunto de grupos. ¿Cómo elegirías dónde cortar el dendrograma? ¿Hay algo que podamos considerar un punto óptimo? Si miro un dendrograma...

54
¿Cómo decidir sobre el número correcto de grupos?

Encontramos los centros de clúster y asignamos puntos a k diferentes agrupaciones de clústeres en k-means clustering, que es un algoritmo muy conocido y se encuentra en casi todos los paquetes de aprendizaje automático en la red. Pero la parte faltante y más importante en mi opinión es la elección...

52
Agrupación con una matriz de distancia

Tengo una matriz (simétrica) Mque representa la distancia entre cada par de nodos. Por ejemplo, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60100120120120 B 20 0 20 20 60 80 80 80120140140140 C 20 20 0 20 60 80 80 80120140140140 D 20 20 20 0 60 80 80 80120140140140 E 40 60 60 60 0 20 20 20 60 80 80 80 F...

46
Interpretación del logaritmo transformador predictor y / o respuesta

Me pregunto si hace una diferencia en la interpretación si solo el dependiente, tanto el dependiente como el independiente, o solo las variables independientes se transforman logarítmicamente. Considere el caso de log(DV) = Intercept + B1*IV + Error Puedo interpretar el IV como el porcentaje...

44
¿Es importante escalar los datos antes de la agrupación?

Encontré este tutorial , que sugiere que debe ejecutar la función de escala en las características antes de la agrupación (creo que convierte los datos en puntuaciones z). Me pregunto si eso es necesario. Lo pregunto principalmente porque hay un buen punto de codo cuando no escalo los datos, pero...