Preguntas etiquetadas con clustering

17

Graficar visualmente datos multidimensionales

Tengo un conjunto de datos con 16 variables, y después de la agrupación por kmeans, deseo trazar los dos grupos. ¿Qué parcelas sugiere para representar visualmente los dos

data-visualization clustering k-means

16

Supuestos del análisis de conglomerados

Disculpas por la pregunta rudimentaria, soy nuevo en esta forma de análisis y tengo una comprensión muy limitada de los principios hasta ahora. Me preguntaba si muchos de los supuestos paramétricos para las pruebas multivariadas / univariadas se aplican al análisis de conglomerados. Muchas de las...

clustering assumptions

16

¿Qué algoritmo implementa ward.D en hclust () si no es el criterio de Ward?

El utilizado por la opción "ward.D" (equivalente a la única opción Ward "ward" en las versiones R <= 3.0.3) no implementa el criterio de agrupación de Ward (1963), mientras que la opción "ward.D2" implementa ese criterio ( Murtagh y Legendre 2014). (

r clustering ward

16

¿Cuándo combinamos la reducción de dimensionalidad con la agrupación?

Estoy intentando realizar la agrupación a nivel de documento. Construí la matriz de frecuencia de término-documento y estoy tratando de agrupar estos vectores de alta dimensión usando k-means. En lugar de agrupar directamente, lo que hice fue aplicar primero la descomposición vectorial singular de...

clustering pca dimensionality-reduction text-mining svd

16

Agrupación de datos 1D

Tengo un conjunto de datos, quiero crear grupos en esos datos basados en una sola variable (no faltan valores). Quiero crear 3 grupos basados en esa variable. ¿Qué algoritmo de agrupamiento utilizar, k-means, EM, DBSCAN, etc.? Mi pregunta principal es, ¿en qué circunstancias debo usar k-means...

clustering

15

Minería de texto: ¿cómo agrupar textos (por ejemplo, artículos de noticias) con inteligencia artificial?

He construido algunas redes neuronales (MLP (completamente conectadas), Elman (recurrente)) para diferentes tareas, como jugar Pong, clasificar dígitos escritos a mano y otras cosas ... Además, intenté construir algunas primeras redes neuronales convolucionales, por ejemplo, para clasificar notas...

clustering neural-networks feature-selection text-mining self-organizing-maps

15

¿Cuál es la intuición detrás de las muestras intercambiables bajo la hipótesis nula?

Las pruebas de permutación (también llamadas prueba de aleatorización, prueba de aleatorización o prueba exacta) son muy útiles y resultan útiles cuando t-testno se cumple el supuesto de distribución normal requerido por ejemplo y cuando se transforman los valores mediante la clasificación de...

hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

15

Agrupación: ¿Debería usar la divergencia Jensen-Shannon o su cuadrado?

Estoy agrupando distribuciones de probabilidad usando el algoritmo de Propagación de afinidad , y planeo usar la Divergencia de Jensen-Shannon como mi métrica de distancia. ¿Es correcto usar JSD en sí mismo como la distancia, o JSD al cuadrado? ¿Por qué? ¿Qué diferencias resultarían de elegir uno...

machine-learning clustering entropy distance-functions

15

¿Está bien usar la distancia de Manhattan con el enlace entre grupos de Ward en la agrupación jerárquica?

Estoy usando la agrupación jerárquica para analizar datos de series de tiempo. Mi código se implementa usando la función MathematicaDirectAgglomerate[...] , que genera grupos jerárquicos con las siguientes entradas: una matriz de distancia D El nombre del método utilizado para determinar la...

clustering distance-functions ward

15

¿Cómo trazar la salida de datos de la agrupación?

Intenté agrupar un conjunto de datos (un conjunto de marcas) y obtuve 2 grupos. Me gustaría representarlo gráficamente. Poco confundido acerca de la representación, ya que no tengo las coordenadas (x, y). También buscando la función MATLAB / Python para hacerlo. EDITAR Creo que publicar datos...

clustering data-visualization python

15

La precisión de la máquina de aumento de gradiente disminuye a medida que aumenta el número de iteraciones

Estoy experimentando con el algoritmo de la máquina de aumento de gradiente a través del caretpaquete en R. Usando un pequeño conjunto de datos de admisión a la universidad, ejecuté el siguiente código: library(caret) ### Load admissions dataset. ### mydata <-

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

Cómo ajustar el modelo de mezcla para la agrupación

Tengo dos variables: X e Y, y necesito hacer que el clúster sea máximo (y óptimo) = 5. La gráfica ideal de variables es la siguiente: Me gustaría hacer 5 grupos de esto. Algo como esto: Por lo tanto, creo que este es un modelo de mezcla con 5 grupos. Cada grupo tiene un punto central y un...

r clustering gaussian-mixture

15

¿Cuál es un buen método para la agrupación de texto corto?

Estoy trabajando en un problema de agrupación de texto. Los datos contienen varias oraciones. ¿Existe un buen algoritmo que alcanza una alta precisión en textos cortos? ¿Puedes proporcionar buenas referencias? Algoritmos como KMeans, el agrupamiento espectral no funciona bien para este problema....

machine-learning clustering text-mining

15

Series temporales y detección de anomalías

Me gustaría configurar un algoritmo para detectar una anomalía en series de tiempo, y planeo usar el agrupamiento para eso. ¿Por qué debería usar una matriz de distancia para la agrupación y no los datos de series temporales sin procesar? Para la detección de la anomalía, utilizaré la...

time-series clustering trend

15

¿Cómo calcular la pureza?

En el análisis de conglomerados, ¿cómo calculamos la pureza? ¿Cuál es la ecuación? No estoy buscando un código para hacerlo por mí. Deje ωkωk\omega_k ser clúster k, y cjcjc_j sea clase j. Entonces, ¿la pureza es prácticamente precisión? parece que estaban sumando la cantidad de clase...

clustering

15

¿Qué método de comparación múltiple usar para un modelo lmer: lsmeans o glht?

Estoy analizando un conjunto de datos utilizando un modelo de efectos mixtos con un efecto fijo (condición) y dos efectos aleatorios (participante debido al diseño del sujeto y al par). El modelo se ha generado con el lme4paquete:

r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

14

Implementación de k-means con matriz de distancia personalizada en la entrada

¿Alguien puede señalarme una implementación de k-means (sería mejor si en matlab) que puede tomar la matriz de distancia en la entrada? La implementación estándar de matlab necesita la matriz de observación en la entrada y no es posible cambiar a medida la medida de similitud....

clustering matlab k-means

14

k-significa vs k-mediana?

Sé que hay un algoritmo de agrupación k-means y una mediana k. Uno que usa la media como el centro del grupo y el otro usa la mediana. Mi pregunta es: ¿cuándo / dónde usar

clustering k-means

14

¿Existe una función en R que tome los centros de los grupos que se encontraron y asigne los grupos a un nuevo conjunto de datos?

Tengo dos partes de un conjunto de datos multidimensionales, llamémoslas trainy test. Y quiero construir un modelo basado en el conjunto de datos del tren y luego validarlo en el conjunto de datos de prueba. Se conoce el número de grupos. Intenté aplicar el agrupamiento k-means en R y obtuve un...

r clustering k-means

14

Procesos de Dirichlet para la agrupación: ¿cómo lidiar con las etiquetas?

P: ¿Cuál es la forma estándar de agrupar datos utilizando un proceso Dirichlet? Cuando se usa Gibbs, los grupos de muestreo aparecen y desaparecen durante el muestreo. Además, tenemos un problema de identificabilidad ya que la distribución posterior es invariable para los reencadenamientos de...

bayesian clustering mcmc dirichlet-process identifiability