Introducción
Tengo una tabla de contingencia categórica con muchas filas y un resultado binario, que cuento:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
Todo esto está bien, porque aún ambas categorías (nombre y resultado) son independientes entre sí, es decir , la persona A no puede ser la persona B al mismo tiempo, y el resultado1 no ocurre al mismo tiempo que el resultado2.
Agregar problemas
Sin embargo, ahora quiero enriquecer mi conjunto de datos asignando clases a los agentes. Las clases no son exclusivas, y algunas incluso pueden depender unas de otras. Para el ejemplo anterior, con cuatro clases C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Ahora quiero saber si hay una dependencia de una clase en el resultado del experimento.
Posible solución (ingenua)
Mi idea era inicialmente agregar según la clase y luego realizar las pruebas de independencia, de modo que la tabla se vería así:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Sin embargo, se me ocurrió que oculto la influencia de las otras clases con este método, porque aislo según la clase, lo que puede darme malos resultados si algunas de las clases dependen mucho unas de otras.
Además, mi conjunto de datos reales contiene alrededor de 200 agentes y 30 categorías, por lo que mi método daría muchos resultados que ahora sé interpretar.
La pregunta
Con esto en mente, me dirijo a usted: ¿Qué método estadístico es aplicable para probar la (in) dependencia de un conjunto de datos con una variable categórica no exclusiva y una variable categórica binaria?
Me gustaría obtener algún resultado en la línea de "Categoría 1 es el predictor más fuerte para el resultado ( p <0.01). También se correlaciona con la Categoría 2".
Las soluciones que usan Python o R son más que bienvenidas, pero no necesito código. Necesito saber qué método es aplicable.
fuente
Respuestas:
Sugiero hacer una regresión de Poisson por separado en el resultado1 y el resultado2 (variables de respuesta) con clase1, clase2, clase3 o clase4 como variables explicativas.
Usted dice que las clases no son exclusivas, pero esto no es un problema si tiene en cuenta la interacción entre las clases. Puede leer más sobre la interacción en la siguiente publicación: Especificación e interpretación de términos de interacción usando glm ()
Cómo manejar la dependencia entre las clases (en términos de hacer una regresión de Poisson), no veo salida. Puede medir la importancia de la asociación con una prueba de ji cuadrado y la fuerza de la asociación con la V de Cramer . Si esto responde a su pregunta, no lo sé.
fuente