El orden de las variables en ANOVA es importante, ¿no?

20

¿Estoy en lo cierto al entender que el orden en que se especifican las variables en un ANOVA multifactorial hace la diferencia, pero que el orden no importa al hacer una regresión lineal múltiple?

Asumiendo un resultado como la pérdida de sangre medida y y dos variables categóricas

  1. método de adenoidectomía a ,
  2. método de amigdalectomía b .

El modelo y~a+bes diferente al modelo y~b+a(o eso parece indicar mi implementación en R).

¿Estoy en lo cierto al entender que el término aquí es que ANOVA es un modelo jerárquico ya que primero atribuye tanta varianza como puede al primer factor antes de intentar atribuir la varianza residual al segundo factor?

En el ejemplo anterior, la jerarquía tiene sentido porque siempre hago la adenoidectomía antes de hacer la amigdalectomía, pero ¿qué pasaría si uno tuviera dos variables sin un orden inherente?

Farrel
fuente
12
El orden es importante en los ANOVA con diseños desequilibrados, es decir, cuando hay tamaños de celda desiguales. Este tema a menudo se trata bajo el título de "tipos de sumas de cuadrados". Consulte epm.sagepub.com/content/38/3/621.full.pdf+html y la respuesta de chl a stats.stackexchange.com/questions/11209/…
caracal
1
Consulte también la respuesta de gung en stats.stackexchange.com/questions/20452 .
ameba dice Reinstate Monica
Acabo de extender una discusión anterior sobre la mía con la esperanza de que arroje otra luz sobre el asunto. Seguramente todavía necesita trabajo, y posiblemente alguien tenga los nervios para ayudar a editarlo. Esto es lo que tengo hasta ahora: go.helms-net.de/stat/div/%28SSE%29%20ANovaRegression_SPSS_R.htm Posiblemente hay algo interesante con el potencial para extraer alguna respuesta explícita a esa pregunta aquí.
Gottfried Helms

Respuestas:

17

Esta pregunta evidentemente proviene de un estudio con un diseño bidireccional desequilibrado, analizado en R con la aov()función; Esta página proporciona un ejemplo más reciente y detallado de este problema.

La respuesta general a esta pregunta, en cuanto a tantas, es: "Depende". Aquí depende de si el diseño es equilibrado y, si no, qué sabor de ANOVA se elige.

Primero, depende de si el diseño es equilibrado. En el mejor de los mundos posibles, con un número igual de casos en todas las celdas de un diseño factorial, no habría diferencia debido al orden de ingreso de los factores en el modelo, independientemente de cómo se realice ANOVA. * Los casos en cuestión , evidentemente de una cohorte clínica retrospectiva, parece ser de un mundo real donde no se encontró ese equilibrio. Entonces el orden podría importar.

En segundo lugar, depende de cómo se realice el ANOVA, que es un tema un tanto polémico. Los tipos de ANOVA para diseños desequilibrados difieren en el orden de evaluación de los principales efectos e interacciones. La evaluación de las interacciones es fundamental para ANOVA de dos vías y de orden superior, por lo que hay disputas sobre la mejor manera de proceder. Vea esta página de validación cruzada para una explicación y discusión. Vea los Detalles y la Advertencia para la función Anova()(con una "A" mayúscula) en el manual del carpaquete para una vista diferente.

El orden de los factores importa en los diseños desequilibrados bajo el valor predeterminado aov()en R, que utiliza lo que se denomina pruebas de tipo I. Estas son atribuciones secuenciales de varianza a factores en el orden de entrada en el modelo, como se preveía en la presente pregunta. El orden no importa con las pruebas de tipo II o tipo III proporcionadas por la Anova()función en el carpaquete en R. Sin embargo, estas alternativas tienen sus propias desventajas potenciales que se indican en los enlaces anteriores.

Finalmente, considere la relación con la regresión lineal múltiple como lm()en R, que es esencialmente el mismo tipo de modelo si incluye términos de interacción. El orden de entrada de variables en lm()no importa en términos de coeficientes de regresión y valores p informados por summary(lm()), en el que un factor categórico de nivel k se codifica como variables binarias binarias (k-1) y se informa un coeficiente de regresión para cada ficticio. .

Sin embargo, es posible envolver la lm()salida con anova()("a" en minúscula del statspaquete R ) o Anova()resumir la influencia de cada factor en todos sus niveles, como se espera en el ANOVA clásico. Entonces, el orden de los factores será importante anova()para aov(), y no será importante para Anova(). Del mismo modo, las disputas sobre qué tipo de ANOVA utilizarían regresarían. Por lo tanto, no es seguro asumir la independencia del orden de entrada de factores con todos los usos lm()posteriores de los modelos.


* Tener un número igual de observaciones en todas las celdas es suficiente pero, según tengo entendido, no es necesario para que el orden de los factores sea irrelevante. Los tipos de equilibrio menos exigentes pueden permitir la independencia del orden.

EdM
fuente
De hecho, sí, esos datos de observación estaban desequilibrados, muy desequilibrados.
Farrel
Esperemos que este comentario todavía reciba una respuesta aquí: usted dice que, bajo un diseño de estudio equilibrado, la estimación de SS nunca dependerá del orden, independientemente del tipo de prueba anova (tipo I, II, III) elegida. No estoy seguro si entiendo esto. usando la función 'anova' en R (que usa pruebas de tipo I) en un modelo lineal basado en datos equilibrados, seguramente el orden de las características es importante, ¿no?
PejoPhylo
1
@PejoPhylo cuando los datos están equilibrados, puede tener lo que se llama un diseño ortogonal. Con un diseño ortogonal, hay una forma única de dividir las sumas de cuadrados entre los tratamientos y sus interacciones, por lo que el orden de entrada de los tratamientos no importará con respecto a las estimaciones de los efectos y sus valores p. Esta página proporciona una explicación matemática. Esto no es inmediatamente obvio; La pregunta que acabo de vincular fue hecha por un miembro de este sitio con una de las más altas reputaciones. Los datos desequilibrados pueden destruir la ortogonalidad.
EdM
Muchas gracias por tu respuesta @EdM
PejoPhylo
0

El término modelo jerárquico se refiere a la estructura entre los factores. Por ejemplo, un estudio multicéntrico es jerárquico: los pacientes están anidados en los hospitales que los tratan. Cada hospital trata a los pacientes con placebo y verum, pero recibirlos en el hospital A o B es ligeramente diferente debido a algún efecto común del hospital que gobierna a todos sus pacientes (incluso podría ser un efecto de interacción con el agente experimental). Entonces se llama efecto jerárquico.

Ahora sus métodos de ectomía pueden ser jerárquicos: ¿es plausible que cierto método de amigdalectomía sea ligeramente diferente (en sí mismo, todavía no en el efecto, porque eso es lo que va a estimar y probar) dependiendo del método de adenoidectomía utilizado anteriormente en el mismo ¿paciente? En caso afirmativo, debe especificarlo en su modelo.

Su observación de que y ~ a + b puede ser diferente de y ~ b + a indica que hay algo mal. Los efectos aditivos conmutan, por lo que no debería haber una diferencia (aparte de pequeñas diferencias numéricas). No es plausible ni deseable que el efecto de los métodos quirúrgicos dependa del orden en que el estadístico más tarde especifique los efectos. Por lo tanto, probablemente eligió el enfoque incorrecto para alimentarse Rcon los datos.

Horst Grünbusch
fuente
1
No estoy seguro de seguir el último párrafo. En el ANOVA factorial desequilibrado, los valores p para cada factor calculado mediante la suma de cuadrados de tipo I (secuencial) dependerán ciertamente del orden de los factores. Creo que este es el punto central de la pregunta.
ameba dice Reinstate Monica
No estoy seguro de si @Farrel obtuvo SS Tipo I. Recuerdo que una vez observé que SAS generaba diferentes tipos de SS de tipo III debido a una clasificación diferente en el conjunto de datos y la declaración del modelo. ¿Quizás esto también puede pasar con R?
Horst Grünbusch
2
No puedo saberlo con certeza y es posible que no se recuerde a sí mismo dado que la Q se le preguntó hace cinco años. Pero creo que esta es, con mucho, la interpretación más parsimoniosa de sus palabras "El modelo y ~ a + b es diferente al modelo y ~ b + a (o eso parece indicar mi implementación en R)", en particular dado el hecho ese aovcomando en R usa el Tipo I SS por defecto. Cuando ofrecí la recompensa, esperaba obtener una respuesta que explicara los problemas detrás del diseño anova desequilibrado, las diferencias entre el tipo I / II / III SS y algunos comentarios sobre si la regresión lineal tiene o no los mismos problemas.
ameba dice Reinstate Monica
1
No. La matriz de diseño es singular en anova incluso si está equilibrada, cuando no hay diferencia entre SS I / II / III. Los SS I / II / III son diferentes solo en el caso desequilibrado porque los factores se vuelven no ortogonales (a diferencia del caso equilibrado). En mi opinión, esto corresponde a una regresión lineal con predictores correlacionados, que es una situación muy común. Mi respuesta es que también ocurre el mismo problema en la regresión, es solo que es estándar calcular el valor p de un predictor después de tener en cuenta los efectos de todos los demás predictores; esto corresponde al tipo III SS en anova.
ameba dice Reinstate Monica
1
Tales preguntas sobre el orden variable en ANOVA siguen llegando, como esta migró de Stack Overflow ayer. Creo que es seguro asumir que esta pregunta de 5 años se basó de manera similar en aovlugar de lm, y sería útil tener una respuesta a esta pregunta del tipo que @amoeba indicó en el comentario del 12 de mayo a las 14:31 .
EdM