Tengo un montón de variables que contienen datos longitudinales desde el día 0 hasta el día 7. Estoy buscando un enfoque de agrupamiento apropiado que pueda agrupar estas variables longitudinales (no casos) en diferentes grupos. Traté de analizar este conjunto de datos por separado por tiempo, pero el resultado fue bastante difícil de explicar razonablemente.
Investigué la disponibilidad de un procedimiento SAS PROC SIMILARITY
porque hay un ejemplo en su sitio web ; Sin embargo, creo que no es una forma correcta. Algunos estudios previos utilizaron análisis factoriales exploratorios en cada punto de tiempo, pero esta tampoco es una opción en mi estudio debido a los resultados irrazonables.
Con suerte, se pueden proporcionar algunas ideas aquí, y un programa compilado, como SAS o R, puede estar disponible para procesar. Cualquier sugerencia es apreciada !!
Aquí hay un breve ejemplo (perdón por la posición inconsistente entre los datos y los nombres de las variables):
id time V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
2 0 8 7 3 7 6 6 0 0 5 2
2 1 3 5 2 6 5 5 1 1 4 2
2 2 2 3 2 4 4 2 0 0 2 2
2 3 6 4 2 5 3 2 1 2 3 3
2 4 5 3 4 4 3 3 4 3 3 3
2 5 6 4 5 5 6 3 3 2 2 2
2 6 7 5 2 4 4 3 3 4 4 5
2 7 7 7 2 6 4 4 0 0 4 3
4 0 10 7 0 2 2 6 7 7 0 9
4 1 8 7 0 0 0 9 3 3 7 8
4 2 8 7 0 0 0 9 3 3 7 8
4 3 8 7 0 0 0 9 3 3 7 8
4 4 5 7 0 0 0 9 3 3 7 8
4 5 5 7 0 0 0 9 3 3 7 8
4 6 5 7 0 0 0 9 3 3 7 8
4 7 5 7 0 0 0 9 3 3 7 8
5 0 9 6 1 3 2 2 2 3 3 5
5 1 7 3 1 3 1 3 2 2 1 3
5 2 6 4 0 4 2 4 2 1 2 4
5 3 6 3 2 3 2 3 3 1 3 4
5 4 8 6 0 5 3 3 2 2 3 4
5 5 9 6 0 4 3 3 2 3 2 5
5 6 8 6 0 4 3 3 2 3 2 5
5 7 8 6 0 4 3 3 2 3 2 5
fuente
Respuestas:
En el
Hmisc
paquete R , vea el archivo de ayuda para lacurveRep
función, que significa "curvas representativas".curveRep
agrupaciones en formas curvas, ubicaciones y patrones de puntos de tiempo perdidos.fuente
x[id==i] <- if(i %% 2) runif(nc[i]) else runif(nc[i], c(.25, .75))
No estoy seguro de que sea lo que está buscando, pero el paquete
kml
en R usa k-means para agrupar secuencias de medidas repetidas. Aquí hay un enlace a la página del paquete y al documento (desafortunadamente, está cerrado). Solo funciona bien si tiene un conjunto de datos bastante pequeño (unos pocos cientos de secuencias).Aquí hay una versión no cerrada del documento (sin problemas de referencia): http://christophe.genolini.free.fr/recherche/aTelecharger/genolini2011.pdf
fuente
Entonces, tienes p variables medidas cada t veces en los mismos n individuos. Una forma de proceder es calcular las matrices de similitud de t pXp (dis) similitud y aplicar el escalamiento multidimensional del modelo INDSCAL. Le dará dos mapas de baja dimensión (digamos, de 2 dimensiones). El primer mapa muestra las coordenadas de p variables en el espacio de las dimensiones y refleja agrupaciones entre ellas, si las hay. El segundo mapa muestra los pesos (es decir, importancia o importancia) de las dimensiones en cada matriz de t .
fuente