Preguntas etiquetadas con clustering

13

Cluster Big Data en R y ¿el muestreo es relevante?

Soy nuevo en ciencia de datos y tengo problemas para encontrar clústeres en un conjunto de datos con 200,000 filas y 50 columnas en R. Dado que los datos tienen variables tanto numéricas como nominales, los métodos como K-means que usa la medida de distancia euclidiana no parecen ser una opción...

r clustering sampling large-data

13

Una rutina para elegir eps y minPts para DBSCAN

DBSCAN es el algoritmo de agrupación más citado de acuerdo con cierta literatura y puede encontrar agrupaciones de formas arbitrarias basadas en la densidad. Tiene dos parámetros eps (como radio de vecindad) y minPts (como vecinos mínimos para considerar un punto como punto central) que creo que...

clustering dbscan

13

¿Necesito descartar variables que estén correlacionadas / colineales antes de ejecutar kmeans?

Estoy ejecutando kmeans para identificar grupos de clientes. Tengo aproximadamente 100 variables para identificar grupos. Cada una de estas variables representa el% de gasto de un cliente en una categoría. Entonces, si tengo 100 categorías, tengo estas 100 variables, de modo que la suma de estas...

clustering data-mining k-means multicollinearity compositional-data

12

¿Cómo puedo probar si mi agrupación de datos binarios es significativa?

Estoy haciendo un análisis del carrito de la compra. Mi conjunto de datos es un conjunto de vectores de transacción, con los artículos que se compran. Al aplicar k-means en las transacciones, siempre obtendré algún resultado. Una matriz aleatoria probablemente también muestre algunos grupos. ¿Hay...

clustering statistical-significance binary-data

12

¿Libros o artículos recomendados como introducción al análisis de conglomerados?

Estoy trabajando en un pequeño corpus de texto (200M), que quiero explorar con algunos análisis de conglomerados. ¿Qué libros o artículos sobre ese tema recomendarías?

machine-learning references clustering

12

Agrupación de datos espaciales en R

Tengo un conjunto de datos mensuales de temperatura de la superficie del mar (SST) y quiero aplicar alguna metodología de clúster para detectar regiones con patrones de SST similares. Tengo un conjunto de archivos de datos mensuales que se ejecutan desde 1985 hasta 2009 y quiero aplicar el...

r clustering spatial

12

¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?

Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <-...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

12

Método de clúster robusto para datos mixtos en R

Estoy buscando agrupar un pequeño conjunto de datos (64 observaciones de 4 variables de intervalo y una sola variable categórica de tres factores). Ahora, soy bastante nuevo en el análisis de conglomerados, pero soy consciente de que ha habido un progreso considerable desde los días en que el...

clustering model-based-clustering mixed-type-data

12

¿Puedo usar PCA para hacer una selección de variables para el análisis de conglomerados?

Tengo que reducir la cantidad de variables para realizar un análisis de conglomerados. Mis variables están fuertemente correlacionadas, así que pensé en hacer un análisis factorial PCA (análisis de componentes principales). Sin embargo, si uso las puntuaciones resultantes, mis grupos no son del...

clustering pca feature-selection factor-analysis

12

¿Puede comparar diferentes métodos de agrupación en un conjunto de datos sin verdad básica mediante validación cruzada?

Actualmente, estoy tratando de analizar un conjunto de datos de documentos de texto que no tiene ninguna verdad fundamental. Me dijeron que puede usar la validación cruzada k-fold para comparar diferentes métodos de agrupación. Sin embargo, los ejemplos que he visto en el pasado utilizan una verdad...

machine-learning clustering cross-validation unsupervised-learning

12

¿Cómo sé que mi algoritmo de agrupación k-means está sufriendo la maldición de la dimensionalidad?

Creo que el título de esta pregunta lo dice todo.

clustering k-means high-dimensional

12

Prueba exacta de Fisher y distribución hipergeométrica

Quería entender mejor la prueba exacta del pescador, así que ideé el siguiente ejemplo de juguete, donde f y m corresponde a machos y hembras, y n e y corresponden a "consumo de refrescos" de esta manera: > soda_gender f m n 0 5 y 5 0 Obviamente, esta es una simplificación drástica, pero...

fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

12

Interpretación del resultado de la agrupación de k-medias en R

Estaba usando las kmeansinstrucciones de R para realizar el algoritmo k-means en el conjunto de datos de iris de Anderson. Tengo una pregunta sobre algunos parámetros que obtuve. Los resultados son: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000...

r machine-learning clustering interpretation k-means

12

¿Qué hacer cuando la matriz de covarianza de la muestra no es invertible?

Estoy trabajando en algunas técnicas de agrupamiento, donde para un grupo dado de vectores de dimensión d supongo una distribución normal multivariada y calculo el vector medio d-dimensional de la muestra y la matriz de covarianza de la muestra. Luego, cuando trato de decidir si un nuevo vector...

clustering multivariate-analysis covariance covariance-matrix matrix-inverse

12

k-medias || también conocido como K-Means escalable ++

Bahman Bahmani y col. introdujo k-means ||, que es una versión más rápida de k-means ++. Este algoritmo está tomado de la página 4 de su artículo , Bahmani, B., Moseley, B., Vattani, A., Kumar, R. y Vassilvitskii, S. (2012). Escalable k-significa ++. Actas de la Fundación VLDB , 5 (7),...

clustering k-means

11

Agrupación de SOM para variables nominales / circulares

Me pregunto si alguien está familiarizado con la agrupación de entradas nominales. He estado buscando en SOM como una solución, pero aparentemente solo funciona con características numéricas. ¿Hay alguna extensión para las características categóricas? Específicamente me preguntaba acerca de 'Días...

clustering unsupervised-learning self-organizing-maps

11

¿Cómo encontrar agrupaciones (trayectorias) entre datos longitudinales?

Contexto Quiero establecer la escena antes de ampliar un poco la cuestión. Tengo datos longitudinales, mediciones tomadas en sujetos aproximadamente cada 3 meses, el resultado primario es numérico (como en continuo a 1dp) en el rango de 5 a 14 con el grueso (de todos los puntos de datos) entre 7...

clustering panel-data

11

¿Qué algoritmo debo usar para agrupar un gran conjunto de datos binarios en pocas categorías?

Tengo una matriz grande de datos binarios (650K filas * 62 columnas) (solo 0-1 entradas). La matriz es principalmente escasa: aproximadamente el 8% está lleno. Me gustaría agruparlo en 5 grupos, digamos nombrado del 1 al 5. He intentado el agrupamiento jerárquico y no pude manejar el tamaño....

clustering dataset k-means binary-data

11

Comprender e implementar un modelo de proceso de Dirichlet

Estoy tratando de implementar y aprender un Proceso de Dirichlet para agrupar mis datos (o como la gente de aprendizaje automático habla, estimar la densidad). Leí mucho papel sobre el tema y de alguna manera tuve la idea. Pero todavía estoy confundido; aquí hay una serie de preguntas, 1) ¿Cuál...

machine-learning clustering dirichlet-process

11

¿Cuáles son las distancias entre las variables que forman una matriz de covarianza?

Tengo una matriz de covarianza y quiero dividir las variables en clústeres usando el agrupamiento jerárquico (por ejemplo, para ordenar una matriz de covarianza).kn × nn×nn \times nkkk ¿Existe una función de distancia típica entre variables (es decir, entre columnas / filas de la matriz de...

clustering covariance distance-functions distance