Sidak o Bonferroni?

13

Estoy usando un modelo lineal generalizado en SPSS para observar las diferencias en el número promedio de orugas (no normal, usando distribución Tweedie) en 16 especies diferentes de plantas.

Quiero realizar comparaciones múltiples, pero no estoy seguro de si debo usar una prueba de corrección Sidak o Bonferroni. ¿Cuál es la diferencia entre las dos pruebas? ¿Es uno mejor que el otro?

Emily
fuente
1
Odio el hecho de que tales correcciones a menudo sean necesarias con las pruebas de hipótesis frecuentistas estándar y prefiero las técnicas bayesianas. Dicho esto, odio menos la corrección de Sidak porque parece menos ad-hoc (si está dispuesto a aceptar el supuesto de independencia). Sin embargo, esto es principalmente una preferencia personal, así que hice un comentario en lugar de una respuesta.
Michael McGowan el
1
@MichaelMcGowan: Simplemente curioso, pero, ¿qué consideras " ad hoc " acerca de una corrección de Bonferroni?
Cardenal
@cardinal Lo siento, esa probablemente no fue la mejor opción de palabras. A costa de necesitar suposiciones más fuertes (no quiero trivializar ese costo), la corrección Sidak crea un límite con un significado más cualitativo. Realmente no puedo explicar cualitativamente qué representa el límite en la corrección de Bonferroni, aparte de una especie de límite en el peor de los casos según la desigualdad de Boole.
Michael McGowan el
@MichaelMcGowan: Ah, está bien. Veo. Supongo que hay un par de cosas cualitativas que uno podría decir sobre Bonferroni: (a) Proporciona protección garantizada contra la tasa de error familiar, independientemente de la dependencia entre las estadísticas de prueba individuales bajo nulo y (b) Es la corrección exacta correcta hacer cuando las regiones de rechazo de las pruebas de hipótesis individuales son disjuntas por pares.
Cardenal
1
Dos pruebas no son independientes si la probabilidad de un error de tipo I para una prueba se correlaciona con la de la otra prueba. Por ejemplo, suponga que ejecuta un experimento con una condición de control y dos condiciones de prueba. Las dos pruebas que comparan cada condición de prueba con la condición de control no son independientes. Puede ver esto considerando lo que sucede si por casualidad obtiene un valor extremo para la condición de control. Esto haría que las dos pruebas sean más propensas a ser estadísticamente significativas.

Respuestas:

20

Si ejecuta pruebas estadísticas independientes utilizando α como su nivel de significancia, y el valor nulo se obtiene en todos los casos, si encontrará o no 'significancia' es simplemente un sorteo de una variable aleatoria. Específicamente, se toma de una distribución binomial con p = α y n = k . Por ejemplo, si planea ejecutar 3 pruebas usando α = .05 , y (sin que usted lo sepa) en realidad no hay diferencia en cada caso, entonces hay un 5% de posibilidades de encontrar un resultado significativo en cada prueba. De esta manera, la tasa de error tipo I se mantiene en αkαp=αn=kα=.05αpara las pruebas individualmente, pero en el conjunto de 3 pruebas, la tasa de error tipo I a largo plazo será mayor. Si cree que es significativo agrupar / pensar en estas 3 pruebas juntas, es posible que desee mantener la tasa de error de tipo I en para el conjunto como un todo , en lugar de solo individualmente. ¿Cómo deberías hacer esto? Hay dos enfoques que se centran en cambiar del α original (es decir, ) a un nuevo valor (es decir, ):ααα n e wαoαnew

Bonferroni: ajuste el utilizado para evaluar la 'importancia' de modo queα

αnew=αok

Dunn-Sidak: ajuste usandoα

αnew=1(1αo)1/k

(Tenga en cuenta que Dunn-Sidak asume que todas las pruebas dentro del conjunto son independientes entre sí y podrían generar una inflación de error tipo I familiar si ese supuesto no se cumple).

Es importante señalar que cuando se realizan las pruebas, hay dos tipos de errores que se quiere evitar, de tipo I (es decir, diciendo que es una diferencia cuando no hay uno) y tipo II (es decir, diciendo que no es una diferencia cuando en realidad la hay). Por lo general, cuando las personas discuten este tema, solo discuten, y parecen estar conscientes o preocupados por, los errores de tipo I. Además, las personas a menudo no mencionan que la tasa de error calculada solo se mantendrá si todos los valores nulos son verdaderos. Es trivialmente obvio que no puede cometer un error de tipo I si la hipótesis nula es falsa, pero es importante tener ese hecho explícitamente en mente al discutir este tema.

Traigo esto a colación porque hay implicaciones de estos hechos que parecen pasar desapercibidos. Primero, si , el enfoque Dunn-Sidak ofrecerá una mayor potencia (aunque la diferencia puede ser bastante pequeña con una pequeña ) y, por lo tanto, siempre debe preferirse (cuando corresponda). En segundo lugar, se debe utilizar un enfoque de "reducción" . Es decir, pruebe primero el mayor efecto; Si está convencido de que el valor nulo no se obtiene en ese caso, el número máximo posible de errores de tipo I es , por lo que la siguiente prueba debe ajustarse en consecuencia, y así sucesivamente. (Esto a menudo hace que las personas incómodas y se parece a la pesca, pero es nok k - 1 αk>1kk1pesca, ya que las pruebas son independientes y tenía la intención de realizarlas antes de ver los datos. Esta es solo una forma de ajustar manera óptima). α

Lo anterior se cumple sin importar cómo valore el tipo I en relación con los errores de tipo II. Sin embargo, a priori no hay razón para creer que los errores de tipo I son peores que los de tipo II (a pesar de que todo el mundo parece asumirlo). En cambio, esta es una decisión que debe tomar el investigador y debe ser específica para esa situación. Personalmente, si estoy ejecutando contrastes ortogonales teóricamente sugeridos, a priori , generalmente no ajusto .α

(Y para decir esto nuevamente, porque es importante, todo lo anterior supone que las pruebas son independientes. Si los contrastes no son independientes, como cuando se comparan varios tratamientos con el mismo control, un enfoque diferente al ajuste , como la prueba de Dunnett, debe usarse). α

gung - Restablece a Monica
fuente
+1. ¿Es lo que usted llama un enfoque "reductor" para Bonferroni exactamente equivalente a lo que se conoce como método Holm-Bonferroni? En caso afirmativo, ¿tiene la misma lógica aplicada a Dunn-Sidak un nombre?
ameba dice Reinstate Monica
1
@amoeba, sí, a veces se le llama "método de Holm", de ahí Holm-Bonferroni o Holm-Sidak.
gung - Restablece a Monica
αα
@amoeba, ejecutando 3 a priori, los contrastes ortogonales en 1 estudio no es diferente de ejecutar 1 contraste a priori en cada uno de los 3 estudios diferentes. Como nadie argumenta que necesita correcciones familiares para el último, no hay una razón coherente para exigirlos para el primero. En su otro ejemplo, si el grupo de control rebota más bajo por casualidad, cada uno de sus 5 contrastes se verá bien; pero eso es poco probable que ocurra si realizó 5 estudios independientes. Realmente deberías usar alguna forma de ajuste, o podrías usar la prueba de Dunnett .
gung - Restablece a Monica
N(0,1)n=10α=0.05
ameba dice Reinstate Monica
6

ααnα=α/nα=1(1α)1/n

α/n<1(1α)1/n

Si necesita un procedimiento aún más potente, puede utilizar el procedimiento Bonferroni-Holm.

Momo
fuente
¿Por qué es Bonferroni más sencillo de manejar?
Emily
3
αn1(1α)1/n
Las computadoras @Momo son muy, muy buenas en aritmética, por lo que no encuentro el argumento de la simplicidad muy convincente. Hace cien años, cuando los cálculos se realizaban a mano, era una historia muy diferente, por supuesto.
Michael McGowan el
+1 en comparación con mi respuesta, esto llega al punto bastante sucintamente ;-).
gung - Restablece a Monica
Jaja eso es lo que pensé que querías decir! ¡Muchas gracias!
Emily
5

La corrección de Sidak supone que las pruebas individuales son estadísticamente independientes. La corrección de Bonferroni no asume esto.

una parada
fuente
¿Eso significa que el Bonferroni es simplemente una prueba más conservadora?
Emily
1
Bonferroni es más conservador cuando ambas pruebas son apropiadas. Pero si sus pruebas no son independientes, no debe usar Sidak.
parada el
2
+1 Que la corrección de Bonferroni no requiere que las pruebas sean independientes es un buen punto que no cubrí.
gung - Restablece a Monica
@onestop: ¿Qué significa que las pruebas son independientes? ¿Podrías quizás dar un ejemplo?
Gunnhild
1
La corrección de Sidak no requiere independencia. Solo supone que las pruebas no son negativamente dependientes. La dependencia positiva está bien.
Bonferroni
4

Sidak y Bonferroni son tan similares que probablemente obtendrá el mismo resultado independientemente del procedimiento que utilice. Bonferroni es solo marginalmente más conservador que Sidak. Por ejemplo, para 2 comparaciones y un alfa familiar de .05, Sidak realizaría cada prueba a .0253 y Bonferroni realizaría cada prueba a .0250.

Muchos comentaristas en este sitio han dicho que Sidak solo es válido cuando las estadísticas de prueba de sus comparaciones son independientes. Eso no es cierto. Sidak permite una ligera inflación de la tasa de error familiar cuando las estadísticas de la prueba son NEGATIVAMENTE dependientes, pero si estás haciendo pruebas a dos caras, la dependencia negativa generalmente no es una preocupación. Bajo dependencia no negativa, Sidak de hecho proporciona un límite superior en la tasa de error familiar. Dicho esto, hay otros procedimientos que proporcionan dicho límite y tienden a retener más poder estadístico que Sidak. Entonces Sidak probablemente no sea la mejor opción.

Una cosa que proporciona el procedimiento de Bonferroni (que Sidak no lo hace) es el control estricto de la cantidad esperada de errores de Tipo I, la llamada "tasa de error por familia", que es más conservadora que la tasa de error familiar. Para obtener más información, consulte: Frane, AV (2015) "¿Son relevantes las tasas de error Tipo I por familia en las ciencias sociales y del comportamiento?" Revista de métodos estadísticos modernos aplicados 14 (1), 12-23.

Bonferroni
fuente