¿Cuáles son los métodos estadísticos que puedo usar para encontrar combinaciones populares o comunes de variables categóricas?

10

Estoy haciendo un estudio sobre el uso de polidrogas. Tengo un conjunto de datos de 400 drogadictos, cada uno de los cuales declaró las drogas que abusan. Hay más de 10 medicamentos y, por lo tanto, hay grandes combinaciones posibles. He recodificado la mayoría de las drogas que consumen en variables binarias (es decir, la heroína es 1 si un adicto a las drogas abusa de la heroína más 0). Me gustaría encontrar las combinaciones populares o comunes de 2 o 3 drogas. ¿Hay métodos estadísticos que pueda usar?

hypothesis-testing clustering combinatorics association-measure association-rules tatami
fuente

6

Solo hay 1024 combinaciones posibles de los medicamentos que se usarán juntos (si hubiera solo 10 medicamentos) suponiendo que cada usuario haya usado al menos 1 medicamento. Simplemente puede convertir sus variables 0/1 en cadena y concatenarlas y ejecutar análisis de frecuencia en la cadena para ver qué combinaciones aparecen con mayor frecuencia. Tomando un ejemplo de juguete, digamos que solo 3 drogas, A, B y C, estaban en su estudio. Si un participante usara el medicamento A y C, entonces la variable alldrugspodría codificarse 101. Un participante que usa solo el medicamento B se codificaría 010. Ejecute frecuencias en estos para encontrar el seleccionado con más frecuencia. La mayoría del software debería poder procesar esto en segundos.

EstadísticasEstudiante
fuente

1

Convenido. Solo hay 400 adictos, por lo que esos 1024 no pueden ocurrir.

Nick Cox

Sí. Esto debería ser pan comido.

StatsStudent

5

El modelado de clase latente sería un enfoque de aprendizaje supervisado para encontrar particiones o agrupaciones subyacentes "ocultas" de drogas y usuarios de drogas. LC es un método muy flexible con dos enfoques generales: replicaciones basadas en medidas repetidas para un solo sujeto versus replicaciones basadas en la clasificación cruzada de un conjunto de variables categóricas. Sus datos se ajustarían al segundo tipo.

La flexibilidad de LC es una función de su capacidad para absorber "mezclas" de variables con diferentes escalas (p. Ej., Categóricas o continuas). Dado que el enfoque encuentra particiones, segmentos o grupos ocultos en los datos, también puede considerarse una técnica de reducción de dimensiones.

Todos los modelos LC tienen 2 etapas: en la etapa 1, se identifica una variable dependiente o objetivo y se construye un modelo de regresión. En la etapa 2, se analiza el residuo (un solo vector "latente") del modelo de la etapa 1 y se crean particiones que capturan la variabilidad (o heterogeneidad) - las "clases latentes" - en ese vector.

Hay descargas gratuitas disponibles que probablemente funcionarían bastante bien para usted. Uno de estos es un módulo R llamado polCA disponible aquí:

http://www.jstatsoft.org/article/view/v042i10

Si tiene alrededor de $ 1,000 para gastar en un producto comercial, Latent Gold está disponible en www.statisticalinnovations.com Después de haber usado en Latent Gold durante años, soy un gran admirador de ese producto por su poder analítico y su gama de soluciones. Por ejemplo, polCA solo es útil para modelos LC con información categórica, mientras que LG funciona en todos los ámbitos ... además, sus desarrolladores siempre agregan nuevos módulos. La adición más reciente construye modelos LC usando cadenas ocultas de Markov. Pero tenga en cuenta que LG no es una plataforma de datos "de extremo a extremo", es decir, no es buena para la manipulación o elevación de datos pesados.

De lo contrario, hay muchos otros enfoques para analizar información categórica que son ampliamente compatibles con el software estadístico como R, SPSS, SAS, Python, etc. Estos incluyen análisis de tablas de contingencia, modelos log-lineales, modelos de mezcla finita, regresión de tensor bayesiano, y así. La literatura en esta área es extensa y comenzó con Bishop, et al., Discrete Multivariate Analysis en 1975, se extiende a través de los modelos RC de Leo Goodman basados en su trabajo realizado desde los años 80, Agresti Categorical Data Analysis , libros de Stephen Fienberg e incluye a Thomas Wickens. excelente libro Análisis de tablas de contingencia de múltiples vías para las ciencias sociales publicado en 1989. Regresión del tensor bayesiano es el título de un artículo de David Dunson en Duke y es una especie de "estado del arte" en ser un método muy reciente para modelar tablas de contingencia masivas de múltiples vías.

Mike Hunter
fuente

Me encanta la lista de referencias!

Chris

3

¿Qué viene a tu mente intuitivamente? Desea contar las combinaciones, ¿por qué no solo encontrar todas las combinaciones posibles y simplemente contar? Le sugiero que busque en la minería de conjuntos de elementos frecuentes.

Wikipedia - Apriori

Aquí hay algunas implementaciones de lo mismo:

Minería de patrones de frecuencia

Nisar duro
fuente

¿Cuáles son los métodos estadísticos que puedo usar para encontrar combinaciones populares o comunes de variables categóricas?

Respuestas: