Hay mucho acerca de la colinealidad con respecto a los predictores continuos, pero no tanto que pueda encontrar en los predictores categóricos. Tengo datos de este tipo ilustrados a continuación.
El primer factor es una variable genética (recuento de alelos), el segundo factor es una categoría de enfermedad. Claramente, los genes preceden a la enfermedad y son un factor para mostrar síntomas que conducen a un diagnóstico. Sin embargo, un análisis regular que utiliza sumas de cuadrados de tipo II o III, como se haría comúnmente en psicología con SPSS, pierde el efecto. Un análisis de sumas de cuadrados tipo I lo recoge cuando se ingresa el orden apropiado porque depende del orden. Además, es probable que haya componentes adicionales al proceso de la enfermedad que no están relacionados con el gen que no están bien identificados con el tipo II o III, ver anova (lm1) a continuación vs lm2 o Anova.
Datos de ejemplo:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 con SS tipo I me parece la forma adecuada de analizar los datos dada la teoría de fondo. ¿Es correcta mi suposición?
- Estoy acostumbrado a manipular explícitamente diseños ortogonales, donde estos problemas no suelen aparecer. ¿Es difícil convencer a los revisores de que este es el mejor proceso (suponiendo que el punto 1 sea correcto) en el contexto de un campo centrado en SPSS?
- ¿Y qué informar en la sección de estadísticas? ¿Algún análisis adicional o comentarios que deberían entrar?
fuente
Respuestas:
La colinealidad entre factores es bastante complicada. El ejemplo clásico es el que obtiene cuando agrupa y codifica de forma ficticia las tres variables continuas 'edad', 'período' y 'año'. Se analiza en:
Los coeficientes que obtiene, después de eliminar cuatro (no tres) referencias, solo se identifican hasta una tendencia lineal desconocida. Esto puede analizarse porque la colinealidad surge de una colinealidad conocida en las variables de origen (edad + año = período).
También se ha trabajado en colinealidad espuria entre dos factores. Se ha analizado en:
El resultado es que la colinealidad entre las variables categóricas significa que el conjunto de datos debe dividirse en partes desconectadas, con un nivel de referencia en cada componente. Los coeficientes estimados de diferentes componentes no se pueden comparar directamente.
Para colinealidades más complicadas entre tres o más factores, la situación es complicada. Existen procedimientos para encontrar funciones estimables, es decir, combinaciones lineales de los coeficientes que son interpretables, por ejemplo, en:
Pero, que yo sepa, no existe una bala de plata general para manejar tales colinealidades de una manera intuitiva.
fuente
Después de conversar con algunas de las estadísticas de personas de todo el lugar. Parece que este tipo de pregunta puede no ser la pregunta más correcta para responder. Usar ANOVA (o métodos similares) para investigar las interacciones genéticas y de diagnóstico sobre medidas neuropsicológicas cuando están altamente correlacionadas es una pregunta difícil. En cambio, he señalado que examine la estructura de los datos con el modelado de ecuaciones estructurales.
Esta respuesta se actualizará a medida que obtenga más información sobre SEM.
fuente