¿Estoy en lo cierto al entender que el orden en que se especifican las variables en un ANOVA multifactorial hace la diferencia, pero que el orden no importa al hacer una regresión lineal múltiple?
Asumiendo un resultado como la pérdida de sangre medida y
y dos variables categóricas
- método de adenoidectomía
a
, - método de amigdalectomía
b
.
El modelo y~a+b
es diferente al modelo y~b+a
(o eso parece indicar mi implementación en R).
¿Estoy en lo cierto al entender que el término aquí es que ANOVA es un modelo jerárquico ya que primero atribuye tanta varianza como puede al primer factor antes de intentar atribuir la varianza residual al segundo factor?
En el ejemplo anterior, la jerarquía tiene sentido porque siempre hago la adenoidectomía antes de hacer la amigdalectomía, pero ¿qué pasaría si uno tuviera dos variables sin un orden inherente?
Respuestas:
Esta pregunta evidentemente proviene de un estudio con un diseño bidireccional desequilibrado, analizado en R con la
aov()
función; Esta página proporciona un ejemplo más reciente y detallado de este problema.La respuesta general a esta pregunta, en cuanto a tantas, es: "Depende". Aquí depende de si el diseño es equilibrado y, si no, qué sabor de ANOVA se elige.
Primero, depende de si el diseño es equilibrado. En el mejor de los mundos posibles, con un número igual de casos en todas las celdas de un diseño factorial, no habría diferencia debido al orden de ingreso de los factores en el modelo, independientemente de cómo se realice ANOVA. * Los casos en cuestión , evidentemente de una cohorte clínica retrospectiva, parece ser de un mundo real donde no se encontró ese equilibrio. Entonces el orden podría importar.
En segundo lugar, depende de cómo se realice el ANOVA, que es un tema un tanto polémico. Los tipos de ANOVA para diseños desequilibrados difieren en el orden de evaluación de los principales efectos e interacciones. La evaluación de las interacciones es fundamental para ANOVA de dos vías y de orden superior, por lo que hay disputas sobre la mejor manera de proceder. Vea esta página de validación cruzada para una explicación y discusión. Vea los Detalles y la Advertencia para la función
Anova()
(con una "A" mayúscula) en el manual delcar
paquete para una vista diferente.El orden de los factores sí importa en los diseños desequilibrados bajo el valor predeterminado
aov()
en R, que utiliza lo que se denomina pruebas de tipo I. Estas son atribuciones secuenciales de varianza a factores en el orden de entrada en el modelo, como se preveía en la presente pregunta. El orden no importa con las pruebas de tipo II o tipo III proporcionadas por laAnova()
función en elcar
paquete en R. Sin embargo, estas alternativas tienen sus propias desventajas potenciales que se indican en los enlaces anteriores.Finalmente, considere la relación con la regresión lineal múltiple como
lm()
en R, que es esencialmente el mismo tipo de modelo si incluye términos de interacción. El orden de entrada de variables enlm()
no importa en términos de coeficientes de regresión y valores p informados porsummary(lm())
, en el que un factor categórico de nivel k se codifica como variables binarias binarias (k-1) y se informa un coeficiente de regresión para cada ficticio. .Sin embargo, es posible envolver la
lm()
salida conanova()
("a" en minúscula delstats
paquete R ) oAnova()
resumir la influencia de cada factor en todos sus niveles, como se espera en el ANOVA clásico. Entonces, el orden de los factores será importanteanova()
paraaov()
, y no será importante paraAnova()
. Del mismo modo, las disputas sobre qué tipo de ANOVA utilizarían regresarían. Por lo tanto, no es seguro asumir la independencia del orden de entrada de factores con todos los usoslm()
posteriores de los modelos.* Tener un número igual de observaciones en todas las celdas es suficiente pero, según tengo entendido, no es necesario para que el orden de los factores sea irrelevante. Los tipos de equilibrio menos exigentes pueden permitir la independencia del orden.
fuente
El término modelo jerárquico se refiere a la estructura entre los factores. Por ejemplo, un estudio multicéntrico es jerárquico: los pacientes están anidados en los hospitales que los tratan. Cada hospital trata a los pacientes con placebo y verum, pero recibirlos en el hospital A o B es ligeramente diferente debido a algún efecto común del hospital que gobierna a todos sus pacientes (incluso podría ser un efecto de interacción con el agente experimental). Entonces se llama efecto jerárquico.
Ahora sus métodos de ectomía pueden ser jerárquicos: ¿es plausible que cierto método de amigdalectomía sea ligeramente diferente (en sí mismo, todavía no en el efecto, porque eso es lo que va a estimar y probar) dependiendo del método de adenoidectomía utilizado anteriormente en el mismo ¿paciente? En caso afirmativo, debe especificarlo en su modelo.
Su observación de que y ~ a + b puede ser diferente de y ~ b + a indica que hay algo mal. Los efectos aditivos conmutan, por lo que no debería haber una diferencia (aparte de pequeñas diferencias numéricas). No es plausible ni deseable que el efecto de los métodos quirúrgicos dependa del orden en que el estadístico más tarde especifique los efectos. Por lo tanto, probablemente eligió el enfoque incorrecto para alimentarse
R
con los datos.fuente
aov
comando en R usa el Tipo I SS por defecto. Cuando ofrecí la recompensa, esperaba obtener una respuesta que explicara los problemas detrás del diseño anova desequilibrado, las diferencias entre el tipo I / II / III SS y algunos comentarios sobre si la regresión lineal tiene o no los mismos problemas.aov
lugar delm
, y sería útil tener una respuesta a esta pregunta del tipo que @amoeba indicó en el comentario del 12 de mayo a las 14:31 .