¿Cómo pruebo la independencia con variables categóricas no exclusivas?

Introducción

Tengo una tabla de contingencia categórica con muchas filas y un resultado binario, que cuento:

name  outcome1  outcome2
----  --------  --------
A     14        5       
B     17        2       
C     6         5       
D     11        8       
E     18        14

Todo esto está bien, porque aún ambas categorías (nombre y resultado) son independientes entre sí, es decir , la persona A no puede ser la persona B al mismo tiempo, y el resultado1 no ocurre al mismo tiempo que el resultado2.

Agregar problemas

Sin embargo, ahora quiero enriquecer mi conjunto de datos asignando clases a los agentes. Las clases no son exclusivas, y algunas incluso pueden depender unas de otras. Para el ejemplo anterior, con cuatro clases C x :

name  C1   C2   C3   C4 
----  ---  ---  ---  ---
A     0    0    1    1  
B     1    0    1    0  
C     1    1    0    1  
D     1    1    0    0  
E     1    1    1    0

Ahora quiero saber si hay una dependencia de una clase en el resultado del experimento.

Posible solución (ingenua)

Mi idea era inicialmente agregar según la clase y luego realizar las pruebas de independencia, de modo que la tabla se vería así:

class   outcome1  outcome2
------  --------  --------
C3      49        21
not_C3  17        13

Sin embargo, se me ocurrió que oculto la influencia de las otras clases con este método, porque aislo según la clase, lo que puede darme malos resultados si algunas de las clases dependen mucho unas de otras.

Además, mi conjunto de datos reales contiene alrededor de 200 agentes y 30 categorías, por lo que mi método daría muchos resultados que ahora sé interpretar.

La pregunta

Con esto en mente, me dirijo a usted: ¿Qué método estadístico es aplicable para probar la (in) dependencia de un conjunto de datos con una variable categórica no exclusiva y una variable categórica binaria?

Me gustaría obtener algún resultado en la línea de "Categoría 1 es el predictor más fuerte para el resultado ( p <0.01). También se correlaciona con la Categoría 2".

Las soluciones que usan Python o R son más que bienvenidas, pero no necesito código. Necesito saber qué método es aplicable.

categorical-data non-independent predictor tschoppi
fuente

resultado1 y resultado2 son independientes también? Solo dices que no suceden al mismo tiempo. Me imagino que podría hacer una regresión de Poisson aquí, si desea medir la dependencia de múltiples variables en el resultado. Pero esto podría ser un problema si sus variables explicativas son muy dependientes.

Erosennin

Sí, el resultado1 y el resultado2 son independientes.

tschoppi

Si "el resultado1 no ocurre al mismo tiempo que el resultado2", ciertamente no son independientes. Sería útil explicar el contexto: ¿exactamente qué observaciones está haciendo para cada persona?

Scortchi - Restablece a Monica

@Scortchi ¿Podría dar más detalles sobre esa declaración de independencia? ¿No podrían ser independientes porque ocurren al mismo tiempo?

Erosennin

@tschoppi usted escribe: "Ahora, quiero asignar (a mano) clases a estas personas, y luego probar si el resultado depende de una de las clases. Mi problema es que las clases, aunque no necesariamente dependen unas de otras, son no exclusivo. Sin embargo, las clases pueden depender unas de otras ". El hecho de que sean exclusivos puede resolverlos haciendo que interactúen entre sí al especificar la regresión de Poisson. Si no estoy completamente equivocado aquí, no entiendo sus datos y preguntas

Erosennin

Respuestas:

Sugiero hacer una regresión de Poisson por separado en el resultado1 y el resultado2 (variables de respuesta) con clase1, clase2, clase3 o clase4 como variables explicativas.

Usted dice que las clases no son exclusivas, pero esto no es un problema si tiene en cuenta la interacción entre las clases. Puede leer más sobre la interacción en la siguiente publicación: Especificación e interpretación de términos de interacción usando glm ()

Cómo manejar la dependencia entre las clases (en términos de hacer una regresión de Poisson), no veo salida. Puede medir la importancia de la asociación con una prueba de ji cuadrado y la fuerza de la asociación con la V de Cramer . Si esto responde a su pregunta, no lo sé.

Erosennin
fuente

Sospecho que (1) el interés podría centrarse en los recuentos del resultado 1 en relación con el resultado 2 y (2) ignorar el nivel de persona / agente puede ser imprudente.

Scortchi - Restablece a Monica

¿No se responderá (1) con una comparación de los coeficientes (resultado de la regresión) resultado1 y resultado2?

Erosennin

(1) sí; pero exactamente cómo compararlos parece ser una parte importante de la pregunta. (Un enfoque conveniente sería tratar el 'tipo de resultado' como un predictor de 'conteo' e incluir todas sus interacciones con las variables de 'clase'. Tendría un modelo más grande que abarcaría sus dos regresiones separadas: es un modelo log-lineal para una tabla de contingencia multidimensional, pero con las diferencias entre ellos fácilmente parametrizadas. Algunos podrían ir más allá y convertirlo en un modelo de regresión logística al condicionar lo que consideran parámetros molestos.)

Scortchi - Reinstalar a Monica

(2) El segundo punto es más importante. Tom y Dick fuman 20 y 35 cigarrillos durante una semana; Harry y Pete, sobre un nuevo tratamiento antitabaco, 30 y 280. ¿Evaluamos la efectividad del tratamiento comparando el no. cigarrillos fumados por personas que no lo usan, 55, al total no. fumado por personas que lo usan, 310?

Scortchi - Restablece a Monica

(1) Consulte ¿Qué prueba puedo usar para comparar pendientes de dos o más modelos de regresión? para la idea general de "un gran modelo", y luego la regresión logarítmica lineal versus la regresión logística y Germán Rodríguez en los modelos logarítmicos lineales . (2) Una comparación pareada de antes y después sería útil, aunque no quise sugerir que con mi ejemplo (lo siento), más bien un modelo jerárquico.

Scortchi - Restablece a Monica