Preguntas etiquetadas con clustering

44

¿Son necesarias la normalización media y el escalado de características para la agrupación de k-means?

¿Cuáles son los mejores pasos de preprocesamiento (recomendados) antes de realizar

clustering normalization k-means

42

¿Cómo hacer la detección comunitaria en una red social / gráfico ponderado?

Me pregunto si alguien podría sugerir cuáles son buenos puntos de partida cuando se trata de realizar detección comunitaria / partición / agrupación de gráficos en un gráfico que tiene bordes ponderados y no dirigidos . El gráfico en cuestión tiene aproximadamente 3 millones de aristas y cada...

clustering data-visualization networks partitioning modularity

40

Agrupamiento dinámico de deformación de tiempo

¿Cuál sería el enfoque para usar Dynamic Time Warping (DTW) para realizar la agrupación de series de tiempo? He leído sobre DTW como una forma de encontrar similitudes entre dos series de tiempo, mientras que podrían cambiarse en el tiempo. ¿Puedo usar este método como una medida de similitud para...

time-series clustering

38

Serie de tiempo 'agrupamiento' en R

Tengo un conjunto de datos de series de tiempo. Cada serie cubre el mismo período, aunque las fechas reales en cada serie de tiempo pueden no "alinearse" exactamente. Es decir, si las series temporales se leyeran en una matriz 2D, se vería así: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01...

r time-series clustering cointegration

35

¿Cómo seleccionar un método de agrupación? ¿Cómo validar una solución de clúster (para garantizar la elección del método)?

Uno de los mayores problemas con el análisis de conglomerados es que es posible que tengamos que derivar conclusiones diferentes cuando nos basamos en diferentes métodos de agrupación utilizados (incluidos diferentes métodos de vinculación en la agrupación jerárquica). Me gustaría saber su opinión...

clustering validation model-evaluation hierarchical-clustering

34

¿Por qué hay una diferencia entre calcular manualmente un intervalo de confianza del 95% de regresión logística y usar la función confint () en R?

Queridos todos, he notado algo extraño que no puedo explicar, ¿verdad? En resumen: el enfoque manual para calcular un intervalo de confianza en un modelo de regresión logística y la función R confint()dan resultados diferentes. He estado pasando por la regresión logística aplicada de Hosmer &...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

¿Cómo interpretar la media de la trama de Silhouette?

Estoy tratando de usar el diagrama de silueta para determinar el número de clúster en mi conjunto de datos. Dado el conjunto de datos Train , utilicé el siguiente código matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =

data-visualization clustering matlab

34

¿Por qué no se utiliza t-SNE como técnica de reducción de dimensionalidad para la agrupación o clasificación?

En una asignación reciente, nos dijeron que usáramos PCA en los dígitos MNIST para reducir las dimensiones de 64 (imágenes de 8 x 8) a 2. Luego tuvimos que agrupar los dígitos usando un Modelo de Mezcla Gaussiana. La PCA que usa solo 2 componentes principales no produce grupos distintos y, como...

classification clustering pca dimensionality-reduction tsne

34

Agrupación jerárquica con datos de tipo mixto: ¿qué distancia / similitud utilizar?

En mi conjunto de datos tenemos variables continuas y naturalmente discretas. Quiero saber si podemos hacer agrupaciones jerárquicas usando ambos tipos de variables. Y si es así, ¿qué medida de distancia es

clustering similarities distance-functions mixed-type-data

33

Elegir el método de enlace correcto para la agrupación jerárquica

Estoy realizando una agrupación jerárquica en los datos que he recopilado y procesado desde el volcado de datos reddit en Google BigQuery. Mi proceso es el siguiente: Recibe las últimas 1000 publicaciones en / r / política Reúne todos los comentarios Procese los datos y calcule una n x mmatriz...

clustering distance unsupervised-learning hierarchical-clustering

33

(Por qué) ¿Ha caído en desgracia el SOM al estilo Kohonen?

Por lo que puedo decir, los SOM de estilo Kohonen tuvieron un pico alrededor de 2005 y no han visto tanto favor recientemente. No he encontrado ningún documento que diga que los SOM hayan sido subsumidos por otro método, o que hayan demostrado ser equivalentes a algo más (de todas formas, en...

clustering self-organizing-maps

33

Agrupando un conjunto de datos con variables discretas y continuas

Tengo un conjunto de datos X que tiene 10 dimensiones, 4 de las cuales son valores discretos. De hecho, esas 4 variables discretas son ordinales, es decir, un valor más alto implica una semántica más alta / mejor. 2 de estas variables discretas son categóricas en el sentido de que para cada una de...

clustering k-means discrete-data continuous-data gaussian-mixture

32

¿Cómo ayudaría PCA con un análisis de agrupamiento de k-means?

Antecedentes : quiero clasificar las áreas residenciales de una ciudad en grupos en función de sus características socioeconómicas, incluida la densidad de unidades de vivienda, la densidad de población, el área de espacios verdes, el precio de la vivienda, el número de escuelas / centros de salud...

clustering pca k-means dimensionality-reduction

32

¿Qué criterios de detención para la agrupación jerárquica aglomerativa se utilizan en la práctica?

He encontrado una extensa literatura que propone todo tipo de criterios (por ejemplo, Glenn et al. 1985 (pdf) y Jung et al. 2002 (pdf)). Sin embargo, la mayoría de estos no son tan fáciles de implementar (al menos desde mi perspectiva). Estoy usando scipy.cluster.hierarchy para obtener una...

clustering

31

Agrupando una larga lista de cadenas (palabras) en grupos de similitud

Tengo a mano el siguiente problema: tengo una lista muy larga de palabras, posiblemente nombres, apellidos, etc. Necesito agrupar esta lista de palabras, de modo que palabras similares, por ejemplo palabras con una distancia de edición similar (Levenshtein) aparezcan en el mismo grupo Por ejemplo,...

clustering k-means pattern-recognition

30

Análisis de clase latente versus análisis de conglomerados: ¿diferencias en las inferencias?

¿Cuáles son las diferencias en las inferencias que se pueden hacer de un análisis de clase latente (LCA) versus un análisis de conglomerados? ¿Es correcto que un LCA asuma una variable latente subyacente que da lugar a las clases, mientras que el análisis de conglomerados es una descripción...

clustering latent-variable latent-class

29

Cómo lidiar con datos jerárquicos / anidados en el aprendizaje automático

Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Calcular la repetibilidad de los efectos de un modelo más antiguo

Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit =

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Cómo hacer reducción de dimensionalidad en R

Tengo una matriz donde a (i, j) me dice cuántas veces he visto la página j individual. Hay 27K individuos y 95K páginas. Me gustaría tener un puñado de "dimensiones" o "aspectos" en el espacio de páginas que corresponderían a conjuntos de páginas que a menudo se ven juntas. Mi objetivo final es...

r clustering dimensionality-reduction

28

Comparar dendrogramas de agrupamiento jerárquico obtenidos por diferentes distancias y métodos

[El título inicial "Medición de similitud para árboles de agrupamiento jerárquico" fue cambiado más tarde por @ttnphns para reflejar mejor el tema] Estoy realizando una serie de análisis de conglomerados jerárquicos en un marco de datos de registros de pacientes (por ejemplo, similar a...

r clustering distance-functions similarities dendrogram