Estoy haciendo un estudio sobre el uso de polidrogas. Tengo un conjunto de datos de 400 drogadictos, cada uno de los cuales declaró las drogas que abusan. Hay más de 10 medicamentos y, por lo tanto, hay grandes combinaciones posibles. He recodificado la mayoría de las drogas que consumen en variables binarias (es decir, la heroína es 1 si un adicto a las drogas abusa de la heroína más 0). Me gustaría encontrar las combinaciones populares o comunes de 2 o 3 drogas. ¿Hay métodos estadísticos que pueda usar?
El modelado de clase latente sería un enfoque de aprendizaje supervisado para encontrar particiones o agrupaciones subyacentes "ocultas" de drogas y usuarios de drogas. LC es un método muy flexible con dos enfoques generales: replicaciones basadas en medidas repetidas para un solo sujeto versus replicaciones basadas en la clasificación cruzada de un conjunto de variables categóricas. Sus datos se ajustarían al segundo tipo.
La flexibilidad de LC es una función de su capacidad para absorber "mezclas" de variables con diferentes escalas (p. Ej., Categóricas o continuas). Dado que el enfoque encuentra particiones, segmentos o grupos ocultos en los datos, también puede considerarse una técnica de reducción de dimensiones.
Todos los modelos LC tienen 2 etapas: en la etapa 1, se identifica una variable dependiente o objetivo y se construye un modelo de regresión. En la etapa 2, se analiza el residuo (un solo vector "latente") del modelo de la etapa 1 y se crean particiones que capturan la variabilidad (o heterogeneidad) - las "clases latentes" - en ese vector.
Hay descargas gratuitas disponibles que probablemente funcionarían bastante bien para usted. Uno de estos es un módulo R llamado polCA disponible aquí:
http://www.jstatsoft.org/article/view/v042i10
Si tiene alrededor de $ 1,000 para gastar en un producto comercial, Latent Gold está disponible en www.statisticalinnovations.com Después de haber usado en Latent Gold durante años, soy un gran admirador de ese producto por su poder analítico y su gama de soluciones. Por ejemplo, polCA solo es útil para modelos LC con información categórica, mientras que LG funciona en todos los ámbitos ... además, sus desarrolladores siempre agregan nuevos módulos. La adición más reciente construye modelos LC usando cadenas ocultas de Markov. Pero tenga en cuenta que LG no es una plataforma de datos "de extremo a extremo", es decir, no es buena para la manipulación o elevación de datos pesados.
De lo contrario, hay muchos otros enfoques para analizar información categórica que son ampliamente compatibles con el software estadístico como R, SPSS, SAS, Python, etc. Estos incluyen análisis de tablas de contingencia, modelos log-lineales, modelos de mezcla finita, regresión de tensor bayesiano, y así. La literatura en esta área es extensa y comenzó con Bishop, et al., Discrete Multivariate Analysis en 1975, se extiende a través de los modelos RC de Leo Goodman basados en su trabajo realizado desde los años 80, Agresti Categorical Data Analysis , libros de Stephen Fienberg e incluye a Thomas Wickens. excelente libro Análisis de tablas de contingencia de múltiples vías para las ciencias sociales publicado en 1989. Regresión del tensor bayesiano es el título de un artículo de David Dunson en Duke y es una especie de "estado del arte" en ser un método muy reciente para modelar tablas de contingencia masivas de múltiples vías.
fuente
¿Qué viene a tu mente intuitivamente? Desea contar las combinaciones, ¿por qué no solo encontrar todas las combinaciones posibles y simplemente contar? Le sugiero que busque en la minería de conjuntos de elementos frecuentes.
Wikipedia - Apriori
Aquí hay algunas implementaciones de lo mismo:
Minería de patrones de frecuencia
fuente