Estoy trabajando en un proyecto donde observamos el comportamiento en una tarea (por ejemplo, tiempo de respuesta) y modelamos este comportamiento en función de varias variables manipuladas experimentalmente, así como varias variables observadas (sexo del participante, coeficiente intelectual del participante, respuestas en un seguimiento) cuestionario). No me preocupa la multicolinealidad entre las variables experimentales porque fueron manipuladas específicamente para ser independientes, pero estoy preocupado por las variables observadas. Sin embargo, no estoy seguro de cómo evaluar la independencia entre las variables observadas, en parte porque parece que obtengo resultados algo diferentes dependiendo de cómo configuré la evaluación, y también porque no estoy muy familiarizado con la correlación en el contexto donde uno o Ambas variables son dicotómicas.
Por ejemplo, aquí hay dos enfoques diferentes para determinar si el sexo es independiente del coeficiente intelectual. No soy fanático de las pruebas de significación de hipótesis nulas, por lo que en ambos enfoques construyo dos modelos, uno con una relación y otro sin él, luego calculo y cociente de probabilidad de registro corregido por AIC:
m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)
m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)
Sin embargo, estos enfoques producen respuestas algo diferentes; LLR1 es aproximadamente 7, lo que sugiere una fuerte evidencia a favor de una relación, mientras que LLR2 es aproximadamente 0,3, lo que sugiere una evidencia muy débil a favor de una relación.
Además, si intento evaluar la independencia entre el sexo y otra variable dicotómica observada, "yn", el LLR resultante depende de manera similar de si configuro los modelos para predecir el sexo a partir de yn, o para predecir yn a partir del sexo.
¿Alguna sugerencia sobre por qué surgen estas diferencias y cómo proceder de manera más razonable?
fuente
seq
en su código un error tipográficosex
? Si ha pegado copia su código-análisis, que podría ser parte del problema ..Respuestas:
Creo que estás tratando de interpretar P (A | B) y P (B | A) como si fueran lo mismo. No hay razón para que sean iguales, debido a la regla del producto:
Una prueba de "independencia lógica / estadística" (pero no independencia causal) entre variables categóricas se puede dar como:
Para las regresiones, esto le dice que el valor promedio del coeficiente intelectual es diferente entre los dos valores del sexo, aunque no sé la escala de la diferencia de AIC (¿es esto "grande"?).
No estoy seguro de cuán apropiado es el AIC para un GLM binomial. Puede ser una mejor idea mirar las tablas de ANOVA y de desviación para LM y GLM respectivamente.
Además, ¿ha trazado los datos? siempre traza los datos !!! esto podrá decirle cosas que la prueba no hace. ¿Qué tan diferentes se ven los coeficientes intelectuales cuando se trazan por sexo? ¿Cuán diferentes se ven los sexos cuando son trazados por IQ?
fuente
¿Por qué te preocupa la multicolinealidad? La única razón por la que necesitamos esta suposición en la regresión es para asegurarnos de obtener estimaciones únicas. La multicolinealidad solo es importante para la estimación cuando es perfecta, cuando una variable es una combinación lineal exacta de las otras.
Si sus variables manipuladas experimentalmente se asignaron al azar, entonces sus correlaciones con los predictores observados, así como los factores no observados, deberían ser (aproximadamente) 0; Es esta suposición la que le ayuda a obtener estimaciones imparciales.
Dicho esto, la multicolinealidad no perfecta puede agrandar sus errores estándar, pero solo en aquellas variables que experimentan el problema de multicolinearidad. En su contexto, los errores estándar de los coeficientes en sus variables experimentales no deberían verse afectados.
fuente