Preguntas etiquetadas con clustering

El análisis de agrupamiento o agrupamiento es la tarea de agrupar un conjunto de objetos de tal manera que los objetos en el mismo grupo (llamado agrupamiento) sean más similares (en algún sentido u otro) entre sí que con los de otros grupos (agrupamientos) . Es una tarea principal de la minería de datos exploratoria, y una técnica común para el análisis estadístico de datos, utilizada en muchos campos, incluido el aprendizaje automático, el reconocimiento de patrones, el análisis de imágenes, la recuperación de información, etc.

29
¿Por qué xgboost es mucho más rápido que sklearn GradientBoostingClassifier?

Estoy tratando de entrenar un modelo de aumento de gradiente en más de 50k ejemplos con 100 características numéricas. XGBClassifiermaneja 500 árboles en 43 segundos en mi máquina, mientras que GradientBoostingClassifiermaneja solo 10 árboles (!) en 1 minuto y 2 segundos :( No me molesté en tratar...

17
Agrupación basada en puntajes de similitud

Supongamos que tenemos un conjunto de elementos E y una similitud ( no lejos ) la función SIM (ei, ej) entre dos elementos de la IE, EJ ∈ E . ¿Cómo podríamos (eficientemente) agrupar los elementos de E , usando sim ? k- significa, por ejemplo, requiere una k dada , Canopy Clustering requiere dos...

16
agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma de imprimir todo dfsin importar su...

15
Agrupación de visitantes únicos por useragent, ip, session_id

Dados los datos de acceso al sitio web en el formulario session_id, ip, user_agent, y opcionalmente la marca de tiempo, siguiendo las condiciones a continuación, ¿cómo agruparía mejor las sesiones en visitantes únicos? session_id: es una identificación dada a cada nuevo visitante. No caduca, sin...

14
¿Rápido k-significa como algoritmo para 10 ^ 10 puntos?

Estoy buscando hacer clusters de k-means en un conjunto de puntos de 10 dimensiones. El truco: hay 10 ^ 10 puntos . Estoy buscando solo el centro y el tamaño de los grupos más grandes (digamos de 10 a 100 grupos); No me importa en qué grupo termina cada punto. Usar k-means específicamente no es...