Parece que para K-means y otros algoritmos relacionados, la agrupación se basa en el cálculo de la distancia entre puntos. ¿Hay alguno que funcione sin
Parece que para K-means y otros algoritmos relacionados, la agrupación se basa en el cálculo de la distancia entre puntos. ¿Hay alguno que funcione sin
¿Alguien usa las métricas o para la agrupación, en lugar de ? Aggarwal et al., Sobre el sorprendente comportamiento de las métricas de distancia en el espacio de alta dimensión, dijeron (en 2001) queL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 es consistentemente más preferible que la métrica de...
¿Alguien puede señalarme una implementación de k-means (sería mejor si en matlab) que puede tomar la matriz de distancia en la entrada? La implementación estándar de matlab necesita la matriz de observación en la entrada y no es posible cambiar a medida la medida de similitud....
Esta es una pregunta ingenua de alguien que comienza a aprender el aprendizaje automático. Estoy leyendo en estos días el libro "Aprendizaje automático: una perspectiva algorítmica" de Marsland. Lo encuentro útil como libro introductorio, pero ahora me gustaría entrar en algoritmos avanzados, los...
Estoy tratando de comprender la medida dinámica de deformación del tiempo para comparar series de tiempo juntas. Tengo tres series de datos de series de tiempo como esta: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783,...
A continuación se describe lo que estoy tratando de lograr, pero es posible que una declaración alternativa del problema pueda describir mi objetivo: quiero divida los siguientes números en grupos donde las variaciones de los números dentro de cada grupo no sean demasiado grandes y las...
Sé que hay un algoritmo de agrupación k-means y una mediana k. Uno que usa la media como el centro del grupo y el otro usa la mediana. Mi pregunta es: ¿cuándo / dónde usar
Sé que esta pregunta no está bien definida, pero algunos grupos tienden a ser elípticos o se encuentran en un espacio dimensional inferior, mientras que otros tienen formas no lineales (en ejemplos 2D o 3D). ¿Hay alguna medida de no linealidad (o "forma") de los grupos? Tenga en cuenta que en el...
Investigué sobre k-means y esto es lo que obtuve: k-means es uno de los algoritmos más simples que utiliza un método de aprendizaje no supervisado para resolver problemas de agrupamiento conocidos. Funciona muy bien con grandes conjuntos de datos. Sin embargo, también hay inconvenientes de K-Means...
Estoy experimentando con la clasificación de datos en grupos. Soy bastante nuevo en este tema e intento comprender el resultado de algunos de los análisis. Usando ejemplos de Quick-R , Rse sugieren varios paquetes. He intentado usar dos de estos paquetes ( fpcusando la kmeansfunción y mclust). Un...
Tengo algunos puntos de datos, cada uno con 5 vectores de resultados discretos aglomerados, los resultados de cada vector generados por una distribución diferente, (el tipo específico del cual no estoy seguro, mi mejor suposición es Weibull, con un parámetro de forma que varía en algún lugar...
DBSCAN es el algoritmo de agrupación más citado de acuerdo con cierta literatura y puede encontrar agrupaciones de formas arbitrarias basadas en la densidad. Tiene dos parámetros eps (como radio de vecindad) y minPts (como vecinos mínimos para considerar un punto como punto central) que creo que...
Aprendí que al elegir varios grupos, debe buscar un punto de codo para diferentes valores de K.He trazado los valores de withinss para valores de k del 1 al 10, pero no veo un claro codo. ¿Qué haces en un caso como
Estoy usando kkk significa agrupamiento para agrupar las voces de los hablantes. Cuando comparo un enunciado con datos de altavoces agrupados obtengo una distorsión promedio (basada en la distancia euclidiana). Esta distancia puede estar en el rango de [0,∞][0,∞][0,\infty] . Quiero convertir esta...
Para la agrupación jerárquica, a menudo veo las siguientes dos "métricas" (no están hablando exactamente) para medir la distancia entre dos variables aleatorias e : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, y) & = 1- | \ Cor (X, y) |, \\ d_2 (X, y) y = 1 - (\ Cor (X, y)) ^...
Si tengo un determinado conjunto de datos, ¿qué tan inteligente sería inicializar los centros de clúster utilizando muestras aleatorias de ese conjunto de datos? Por ejemplo, supongamos que quiero 5 clusters. Supongo que 5 random samplesdel size=20%conjunto de datos original. ¿Podría entonces...
Tengo datos temporales de frecuencias de actividad. Quiero identificar grupos en los datos que indican distintos períodos de tiempo con niveles de actividad similares. Idealmente, quiero identificar los grupos sin especificar el número de grupos a priori. ¿Cuáles son las técnicas de agrupamiento...
Tengo 17 variables numéricas y 5 binarias (0-1), con 73 muestras en mi conjunto de datos. Necesito ejecutar un análisis de clúster. Sé que la distancia de Gower es una buena métrica para conjuntos de datos con variables mixtas. Sin embargo, no podía entender cómo la distancia de Gower calcula la...
¿Cuáles son los métodos más avanzados en deduplicación de registros? La deduplicación también se denomina a veces: vinculación de registros, resolución de entidad, resolución de identidad, fusión / purga. Sé, por ejemplo, sobre CBLOCK [1]. Agradecería que las respuestas también incluyeran...
Soy nuevo en ciencia de datos y tengo problemas para encontrar clústeres en un conjunto de datos con 200,000 filas y 50 columnas en R. Dado que los datos tienen variables tanto numéricas como nominales, los métodos como K-means que usa la medida de distancia euclidiana no parecen ser una opción...