¿Cuáles son los mejores pasos de preprocesamiento (recomendados) antes de realizar
¿Cuáles son los mejores pasos de preprocesamiento (recomendados) antes de realizar
Me pregunto si alguien podría sugerir cuáles son buenos puntos de partida cuando se trata de realizar detección comunitaria / partición / agrupación de gráficos en un gráfico que tiene bordes ponderados y no dirigidos . El gráfico en cuestión tiene aproximadamente 3 millones de aristas y cada...
¿Cuál sería el enfoque para usar Dynamic Time Warping (DTW) para realizar la agrupación de series de tiempo? He leído sobre DTW como una forma de encontrar similitudes entre dos series de tiempo, mientras que podrían cambiarse en el tiempo. ¿Puedo usar este método como una medida de similitud para...
Tengo un conjunto de datos de series de tiempo. Cada serie cubre el mismo período, aunque las fechas reales en cada serie de tiempo pueden no "alinearse" exactamente. Es decir, si las series temporales se leyeran en una matriz 2D, se vería así: date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01...
Uno de los mayores problemas con el análisis de conglomerados es que es posible que tengamos que derivar conclusiones diferentes cuando nos basamos en diferentes métodos de agrupación utilizados (incluidos diferentes métodos de vinculación en la agrupación jerárquica). Me gustaría saber su opinión...
Queridos todos, he notado algo extraño que no puedo explicar, ¿verdad? En resumen: el enfoque manual para calcular un intervalo de confianza en un modelo de regresión logística y la función R confint()dan resultados diferentes. He estado pasando por la regresión logística aplicada de Hosmer &...
Estoy tratando de usar el diagrama de silueta para determinar el número de clúster en mi conjunto de datos. Dado el conjunto de datos Train , utilicé el siguiente código matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid =
En una asignación reciente, nos dijeron que usáramos PCA en los dígitos MNIST para reducir las dimensiones de 64 (imágenes de 8 x 8) a 2. Luego tuvimos que agrupar los dígitos usando un Modelo de Mezcla Gaussiana. La PCA que usa solo 2 componentes principales no produce grupos distintos y, como...
En mi conjunto de datos tenemos variables continuas y naturalmente discretas. Quiero saber si podemos hacer agrupaciones jerárquicas usando ambos tipos de variables. Y si es así, ¿qué medida de distancia es
Estoy realizando una agrupación jerárquica en los datos que he recopilado y procesado desde el volcado de datos reddit en Google BigQuery. Mi proceso es el siguiente: Recibe las últimas 1000 publicaciones en / r / política Reúne todos los comentarios Procese los datos y calcule una n x mmatriz...
Por lo que puedo decir, los SOM de estilo Kohonen tuvieron un pico alrededor de 2005 y no han visto tanto favor recientemente. No he encontrado ningún documento que diga que los SOM hayan sido subsumidos por otro método, o que hayan demostrado ser equivalentes a algo más (de todas formas, en...
Tengo un conjunto de datos X que tiene 10 dimensiones, 4 de las cuales son valores discretos. De hecho, esas 4 variables discretas son ordinales, es decir, un valor más alto implica una semántica más alta / mejor. 2 de estas variables discretas son categóricas en el sentido de que para cada una de...
Antecedentes : quiero clasificar las áreas residenciales de una ciudad en grupos en función de sus características socioeconómicas, incluida la densidad de unidades de vivienda, la densidad de población, el área de espacios verdes, el precio de la vivienda, el número de escuelas / centros de salud...
He encontrado una extensa literatura que propone todo tipo de criterios (por ejemplo, Glenn et al. 1985 (pdf) y Jung et al. 2002 (pdf)). Sin embargo, la mayoría de estos no son tan fáciles de implementar (al menos desde mi perspectiva). Estoy usando scipy.cluster.hierarchy para obtener una...
Tengo a mano el siguiente problema: tengo una lista muy larga de palabras, posiblemente nombres, apellidos, etc. Necesito agrupar esta lista de palabras, de modo que palabras similares, por ejemplo palabras con una distancia de edición similar (Levenshtein) aparezcan en el mismo grupo Por ejemplo,...
¿Cuáles son las diferencias en las inferencias que se pueden hacer de un análisis de clase latente (LCA) versus un análisis de conglomerados? ¿Es correcto que un LCA asuma una variable latente subyacente que da lugar a las clases, mientras que el análisis de conglomerados es una descripción...
Explicaré mi problema con un ejemplo. Suponga que desea predecir el ingreso de un individuo dados algunos atributos: {Edad, Sexo, País, Región, Ciudad}. Tienes un conjunto de datos de entrenamiento como este train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...
Acabo de encontrar este artículo , que describe cómo calcular la repetibilidad (también conocida como confiabilidad, también conocida como correlación intraclase) de una medición a través del modelado de efectos mixtos. El código R sería: #fit the model fit =
Tengo una matriz donde a (i, j) me dice cuántas veces he visto la página j individual. Hay 27K individuos y 95K páginas. Me gustaría tener un puñado de "dimensiones" o "aspectos" en el espacio de páginas que corresponderían a conjuntos de páginas que a menudo se ven juntas. Mi objetivo final es...
[El título inicial "Medición de similitud para árboles de agrupamiento jerárquico" fue cambiado más tarde por @ttnphns para reflejar mejor el tema] Estoy realizando una serie de análisis de conglomerados jerárquicos en un marco de datos de registros de pacientes (por ejemplo, similar a...