Supongamos que tengo un experimento con dos o más factores. Se construye un ANOVA general, y luego hacemos un seguimiento con dos o más conjuntos de pruebas post hoc , por ejemplo, comparaciones múltiples. Mi pregunta es acerca de qué tan grandes y cuántas familias deben usarse como base para los ajustes de multiplicidad de estas pruebas post hoc .
Un ejemplo es el conjunto de datos warp-breaks del libro de Tukey sobre EDA. Hay dos factores: wool
(en dos niveles) y tension
(en tres niveles). La tabla ANOVA es:
Source Df Sum Sq Mean Sq F value Pr(>F)
wool 1 450.7 450.67 3.7653 0.0582130
tension 2 2034.3 1017.13 8.4980 0.0006926
wool:tension 2 1002.8 501.39 4.1891 0.0210442
Residuals 48 5745.1 119.69
Claramente, la interacción es necesaria en el modelo. Entonces decidimos hacer comparaciones de los niveles de cada factor, manteniendo fijo el otro factor. Los resultados están a continuación, con algunas anotaciones a las que se hará referencia más adelante:
*** Pairwise comparisons of tension for each wool ***
*** All combined: Family T ***
wool = A: *** Family T|A ***
contrast estimate SE df t.ratio
L - M 20.5555556 5.157299 48 3.986
L - H 20.0000000 5.157299 48 3.878
M - H -0.5555556 5.157299 48 -0.108
wool = B: *** Family T|B ***
contrast estimate SE df t.ratio
L - M -0.5555556 5.157299 48 -0.108
L - H 9.4444444 5.157299 48 1.831
M - H 10.0000000 5.157299 48 1.939
*** Comparison of wool for each tension ***
*** All combined: Family W ***
tension = L: *** Family W|L ***
contrast estimate SE df t.ratio
A - B 16.333333 5.157299 48 3.167
tension = M: *** Family W|M ***
contrast estimate SE df t.ratio
A - B -4.777778 5.157299 48 -0.926
tension = H: *** Family W|H ***
contrast estimate SE df t.ratio
A - B 5.777778 5.157299 48 1.120
Creo que existen diferentes prácticas, y me pregunto cuáles son las más comunes y qué argumentos haría la gente a favor o en contra de cada enfoque. Al calcular los valores ajustados , ¿deberíamos hacer ajustes de multiplicidad para ...
- cada una de las cinco familias más pequeñas (T | A, T | B, ..., W | H) por separado? (Nota: las últimas 3 familias tienen solo una prueba, por lo que no habría ajustes de multiplicidad para esas)
- cada una de las familias más grandes (T, con 6 pruebas y W, con 3 pruebas) por separado?
- ¿Todas las pruebas consideradas como una gran familia?
Estoy interesado tanto en lo que la gente suele hacer (incluso si no han pensado mucho en ello) como en por qué (si lo han hecho). Un par de cosas que podría mencionar son:
- Hay 3 pruebas en la tabla ANOVA. No recuerdo haber visto a nadie considerar un ajuste de multiplicidad en las pruebas ANOVA. Si ese es el caso, y usted recomienda la opción (3), ¿está siendo inconsistente?
- Si hubiéramos hecho un experimento algo más pequeño en el que todas las pruebas son menos potentes, es posible que la interacción no hubiera sido significativa, lo que llevaría a un número mucho menor de comparaciones post hoc de medias marginales solamente. Además, los medios marginales podrían tener SE más pequeños que los medios celulares en el experimento más grande. Si, además, el ajuste de multiplicidad es menos conservador, podríamos tener resultados más "significativos" con menos datos de los que tendríamos con más datos.
Interesado en ver lo que la gente tiene que decir ...
fuente
lsmeans
? ¡Eso fue mucho trabajo para esa pregunta!