Estoy usando un modelo lineal generalizado en SPSS para observar las diferencias en el número promedio de orugas (no normal, usando distribución Tweedie) en 16 especies diferentes de plantas.
Quiero realizar comparaciones múltiples, pero no estoy seguro de si debo usar una prueba de corrección Sidak o Bonferroni. ¿Cuál es la diferencia entre las dos pruebas? ¿Es uno mejor que el otro?
Respuestas:
Si ejecuta pruebas estadísticas independientes utilizando α como su nivel de significancia, y el valor nulo se obtiene en todos los casos, si encontrará o no 'significancia' es simplemente un sorteo de una variable aleatoria. Específicamente, se toma de una distribución binomial con p = α y n = k . Por ejemplo, si planea ejecutar 3 pruebas usando α = .05 , y (sin que usted lo sepa) en realidad no hay diferencia en cada caso, entonces hay un 5% de posibilidades de encontrar un resultado significativo en cada prueba. De esta manera, la tasa de error tipo I se mantiene en αk α p = α n = k α = .05 α para las pruebas individualmente, pero en el conjunto de 3 pruebas, la tasa de error tipo I a largo plazo será mayor. Si cree que es significativo agrupar / pensar en estas 3 pruebas juntas, es posible que desee mantener la tasa de error de tipo I en para el conjunto como un todo , en lugar de solo individualmente. ¿Cómo deberías hacer esto? Hay dos enfoques que se centran en cambiar del α original (es decir, ) a un nuevo valor (es decir, ):α α α n e wαo αn e w
Bonferroni: ajuste el utilizado para evaluar la 'importancia' de modo queα
Dunn-Sidak: ajuste usandoα
(Tenga en cuenta que Dunn-Sidak asume que todas las pruebas dentro del conjunto son independientes entre sí y podrían generar una inflación de error tipo I familiar si ese supuesto no se cumple).
Es importante señalar que cuando se realizan las pruebas, hay dos tipos de errores que se quiere evitar, de tipo I (es decir, diciendo que es una diferencia cuando no hay uno) y tipo II (es decir, diciendo que no es una diferencia cuando en realidad la hay). Por lo general, cuando las personas discuten este tema, solo discuten, y parecen estar conscientes o preocupados por, los errores de tipo I. Además, las personas a menudo no mencionan que la tasa de error calculada solo se mantendrá si todos los valores nulos son verdaderos. Es trivialmente obvio que no puede cometer un error de tipo I si la hipótesis nula es falsa, pero es importante tener ese hecho explícitamente en mente al discutir este tema.
Traigo esto a colación porque hay implicaciones de estos hechos que parecen pasar desapercibidos. Primero, si , el enfoque Dunn-Sidak ofrecerá una mayor potencia (aunque la diferencia puede ser bastante pequeña con una pequeña ) y, por lo tanto, siempre debe preferirse (cuando corresponda). En segundo lugar, se debe utilizar un enfoque de "reducción" . Es decir, pruebe primero el mayor efecto; Si está convencido de que el valor nulo no se obtiene en ese caso, el número máximo posible de errores de tipo I es , por lo que la siguiente prueba debe ajustarse en consecuencia, y así sucesivamente. (Esto a menudo hace que las personas incómodas y se parece a la pesca, pero es nok k - 1 αk > 1 k k - 1 pesca, ya que las pruebas son independientes y tenía la intención de realizarlas antes de ver los datos. Esta es solo una forma de ajustar manera óptima). α
Lo anterior se cumple sin importar cómo valore el tipo I en relación con los errores de tipo II. Sin embargo, a priori no hay razón para creer que los errores de tipo I son peores que los de tipo II (a pesar de que todo el mundo parece asumirlo). En cambio, esta es una decisión que debe tomar el investigador y debe ser específica para esa situación. Personalmente, si estoy ejecutando contrastes ortogonales teóricamente sugeridos, a priori , generalmente no ajusto .α
(Y para decir esto nuevamente, porque es importante, todo lo anterior supone que las pruebas son independientes. Si los contrastes no son independientes, como cuando se comparan varios tratamientos con el mismo control, un enfoque diferente al ajuste , como la prueba de Dunnett, debe usarse).α
fuente
Si necesita un procedimiento aún más potente, puede utilizar el procedimiento Bonferroni-Holm.
fuente
La corrección de Sidak supone que las pruebas individuales son estadísticamente independientes. La corrección de Bonferroni no asume esto.
fuente
Sidak y Bonferroni son tan similares que probablemente obtendrá el mismo resultado independientemente del procedimiento que utilice. Bonferroni es solo marginalmente más conservador que Sidak. Por ejemplo, para 2 comparaciones y un alfa familiar de .05, Sidak realizaría cada prueba a .0253 y Bonferroni realizaría cada prueba a .0250.
Muchos comentaristas en este sitio han dicho que Sidak solo es válido cuando las estadísticas de prueba de sus comparaciones son independientes. Eso no es cierto. Sidak permite una ligera inflación de la tasa de error familiar cuando las estadísticas de la prueba son NEGATIVAMENTE dependientes, pero si estás haciendo pruebas a dos caras, la dependencia negativa generalmente no es una preocupación. Bajo dependencia no negativa, Sidak de hecho proporciona un límite superior en la tasa de error familiar. Dicho esto, hay otros procedimientos que proporcionan dicho límite y tienden a retener más poder estadístico que Sidak. Entonces Sidak probablemente no sea la mejor opción.
Una cosa que proporciona el procedimiento de Bonferroni (que Sidak no lo hace) es el control estricto de la cantidad esperada de errores de Tipo I, la llamada "tasa de error por familia", que es más conservadora que la tasa de error familiar. Para obtener más información, consulte: Frane, AV (2015) "¿Son relevantes las tasas de error Tipo I por familia en las ciencias sociales y del comportamiento?" Revista de métodos estadísticos modernos aplicados 14 (1), 12-23.
fuente