Preguntas etiquetadas con clustering

14

¿Hay algún algoritmo de agrupamiento no basado en la distancia?

Parece que para K-means y otros algoritmos relacionados, la agrupación se basa en el cálculo de la distancia entre puntos. ¿Hay alguno que funcione sin

14

o métricas para la agrupación?

¿Alguien usa las métricas o para la agrupación, en lugar de ? Aggarwal et al., Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión, dijeron (en 2001) queL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 es consistentemente más preferible que la métrica de...

clustering distance-functions rule-of-thumb

14

Implementación de k-means con matriz de distancia personalizada en la entrada

¿Alguien puede señalarme una implementación de k-means (sería mejor si en matlab) que puede tomar la matriz de distancia en la entrada? La implementación estándar de matlab necesita la matriz de observación en la entrada y no es posible cambiar a medida la medida de similitud....

clustering matlab k-means

14

¿Cuáles son los "algoritmos activos" para el aprendizaje automático?

Esta es una pregunta ingenua de alguien que comienza a aprender el aprendizaje automático. Estoy leyendo en estos días el libro "Aprendizaje automático: una perspectiva algorítmica" de Marsland. Lo encuentro útil como libro introductorio, pero ahora me gustaría entrar en algoritmos avanzados, los...

machine-learning clustering bioinformatics

14

¿Alguien puede explicar la deformación dinámica del tiempo para determinar la similitud de series temporales?

Estoy tratando de comprender la medida dinámica de deformación del tiempo para comparar series de tiempo juntas. Tengo tres series de datos de series de tiempo como esta: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783,...

r time-series clustering

14

¿Cómo puedo agrupar datos numéricos en "paréntesis" formando naturalmente? (por ejemplo, ingresos)

A continuación se describe lo que estoy tratando de lograr, pero es posible que una declaración alternativa del problema pueda describir mi objetivo: quiero divida los siguientes números en grupos donde las variaciones de los números dentro de cada grupo no sean demasiado grandes y las...

clustering relative-distribution

14

k-significa vs k-mediana?

Sé que hay un algoritmo de agrupación k-means y una mediana k. Uno que usa la media como el centro del grupo y el otro usa la mediana. Mi pregunta es: ¿cuándo / dónde usar

clustering k-means

14

¿Cómo medir la forma del racimo?

Sé que esta pregunta no está bien definida, pero algunos grupos tienden a ser elípticos o se encuentran en un espacio dimensional inferior, mientras que otros tienen formas no lineales (en ejemplos 2D o 3D). ¿Hay alguna medida de no linealidad (o "forma") de los grupos? Tenga en cuenta que en el...

unsupervised-learning clustering

14

¿Por qué usamos k-means en lugar de otros algoritmos?

Investigué sobre k-means y esto es lo que obtuve: k-means es uno de los algoritmos más simples que utiliza un método de aprendizaje no supervisado para resolver problemas de agrupamiento conocidos. Funciona muy bien con grandes conjuntos de datos. Sin embargo, también hay inconvenientes de K-Means...

clustering data-mining algorithms k-means

13

Comprender las comparaciones de resultados de agrupamiento

Estoy experimentando con la clasificación de datos en grupos. Soy bastante nuevo en este tema e intento comprender el resultado de algunos de los análisis. Usando ejemplos de Quick-R , Rse sugieren varios paquetes. He intentado usar dos de estos paquetes ( fpcusando la kmeansfunción y mclust). Un...

r clustering

13

Agrupación de distribuciones de probabilidad: ¿métodos y métricas?

Tengo algunos puntos de datos, cada uno con 5 vectores de resultados discretos aglomerados, los resultados de cada vector generados por una distribución diferente, (el tipo específico del cual no estoy seguro, mi mejor suposición es Weibull, con un parámetro de forma que varía en algún lugar...

distributions clustering feature-selection kolmogorov-smirnov k-means

13

Una rutina para elegir eps y minPts para DBSCAN

DBSCAN es el algoritmo de agrupación más citado de acuerdo con cierta literatura y puede encontrar agrupaciones de formas arbitrarias basadas en la densidad. Tiene dos parámetros eps (como radio de vecindad) y minPts (como vecinos mínimos para considerar un punto como punto central) que creo que...

clustering dbscan

13

¿Qué haces cuando no hay un punto de codo para la agrupación de kmeans?

Aprendí que al elegir varios grupos, debe buscar un punto de codo para diferentes valores de K.He trazado los valores de withinss para valores de k del 1 al 10, pero no veo un claro codo. ¿Qué haces en un caso como

clustering k-means

13

Cómo puedo convertir la distancia (Euclidiana) a puntaje de similitud

Estoy usando kkk significa agrupamiento para agrupar las voces de los hablantes. Cuando comparo un enunciado con datos de altavoces agrupados obtengo una distorsión promedio (basada en la distancia euclidiana). Esta distancia puede estar en el rango de [0,∞][0,∞][0,\infty] . Quiero convertir esta...

clustering k-means distance euclidean

13

¿Se cumple la desigualdad triangular para estas distancias basadas en correlaciones?

Para la agrupación jerárquica, a menudo veo las siguientes dos "métricas" (no están hablando exactamente) para medir la distancia entre dos variables aleatorias e : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, y) & = 1- | \ Cor (X, y) |, \\ d_2 (X, y) y = 1 - (\ Cor (X, y)) ^...

correlation clustering distance metric

13

¿Inicializar centros de K-medias por medio de submuestras aleatorias del conjunto de datos?

Si tengo un determinado conjunto de datos, ¿qué tan inteligente sería inicializar los centros de clúster utilizando muestras aleatorias de ese conjunto de datos? Por ejemplo, supongamos que quiero 5 clusters. Supongo que 5 random samplesdel size=20%conjunto de datos original. ¿Podría entonces...

clustering k-means unsupervised-learning

13

¿Técnicas de agrupamiento apropiadas para datos temporales?

Tengo datos temporales de frecuencias de actividad. Quiero identificar grupos en los datos que indican distintos períodos de tiempo con niveles de actividad similares. Idealmente, quiero identificar los grupos sin especificar el número de grupos a priori. ¿Cuáles son las técnicas de agrupamiento...

machine-learning clustering

13

¿Cómo calcula la distancia de Gower la diferencia entre las variables binarias?

Tengo 17 variables numéricas y 5 binarias (0-1), con 73 muestras en mi conjunto de datos. Necesito ejecutar un análisis de clúster. Sé que la distancia de Gower es una buena métrica para conjuntos de datos con variables mixtas. Sin embargo, no podía entender cómo la distancia de Gower calcula la...

clustering distance mixed-type-data

13

Estado del arte en deduplicación

¿Cuáles son los métodos más avanzados en deduplicación de registros? La deduplicación también se denomina a veces: vinculación de registros, resolución de entidad, resolución de identidad, fusión / purga. Sé, por ejemplo, sobre CBLOCK [1]. Agradecería que las respuestas también incluyeran...

clustering data-cleaning record-linkage

13

Cluster Big Data en R y ¿el muestreo es relevante?

Soy nuevo en ciencia de datos y tengo problemas para encontrar clústeres en un conjunto de datos con 200,000 filas y 50 columnas en R. Dado que los datos tienen variables tanto numéricas como nominales, los métodos como K-means que usa la medida de distancia euclidiana no parecen ser una opción...

r clustering sampling large-data