Me pregunto si es posible realizar dentro de R una agrupación de datos con variables de datos mixtas. En otras palabras, tengo un conjunto de datos que contiene variables numéricas y categóricas dentro y estoy encontrando la mejor manera de agruparlas. En SPSS, usaría un clúster de dos pasos. Me pregunto si en R puedo encontrar técnicas similares. Me dijeron sobre el paquete poLCA, pero no estoy seguro ...
r
clustering
mixed-type-data
Giorgio Spedicato
fuente
fuente
Respuestas:
Esto puede llegar tarde pero intente klaR ( http://cran.r-project.org/web/packages/klaR/index.html )
Utiliza el algoritmo de modos k no jerárquicos, que se basa en la coincidencia simple como una función de distancia, por lo que la distancia δ entre una variable m de dos puntos de datos e y viene dada porx y
Existe una falla con el paquete, es decir, si dos puntos de datos tienen la misma distancia a un centro de clúster, se elige el primero en sus datos en lugar de un punto aleatorio, pero puede modificar fácilmente el bit en el código.
Para acomodar el agrupamiento de variables mixtas, deberá ingresar al código y modificar la función de distancia para identificar modos y variables numéricos y no numéricos.
fuente
Otra forma atractiva de manejar variables de tipos mixtos es usar la matriz de proximidad / similitud de Random Forests: http://cogns.northwestern.edu/cbmg/LiawAndWiener2002.pdf . Esto facilita una forma unificada de tratar por igual todas las variables (sin embargo, tenga en cuenta el problema del sesgo de selección de variables). Por otro lado, realmente no existe una forma universal de oro de definir la distancia para variables de tipos mixtos. Todo depende de los contextos de la aplicación.
fuente
Puede usar el análisis de correspondencia múltiple para crear dimensiones continuas a partir de las variables categóricas y luego usarlas con las variables numéricas en un segundo paso.
fuente
Bueno, ciertamente puedes. Al hacer que las variables categóricas sean artificialmente numéricas. O usando una agrupación basada en matriz de distancia (fpc probablemente puede hacer eso). La pregunta que primero debe intentar responder es: ¿tiene sentido?
fuente
caracteres multiestado (nominal u ordinal): 1 para igualdad, 0 más (equivalente al coeficiente de coincidencia simple)
fuente
Si los valores posibles de las variables categóricas no son demasiados, entonces puede pensar en crear variables binarias a partir de esos valores. Puede tratar estas variables binarias como variables numéricas y ejecutar su agrupación. Eso es lo que hice para mi proyecto.
fuente
La agrupación de prototipos k podría ser más adecuada aquí. Combina modos k y medios ky puede agrupar datos numéricos / categóricos mixtos. Para R, use el paquete 'clustMixType'.
https://cran.r-project.org/web/packages/clustMixType/clustMixType.pdf
fuente
VarSelLCM
ofertas de paquetesSobre CRAN , y se describe más en papel .
La ventaja sobre algunos de los métodos anteriores es que ofrece algo de ayuda en la elección del número de clústeres y maneja los datos faltantes. Buena aplicación brillante siempre no es mal vista.
fuente