¿Qué hay de malo con los ajustes de Bonferroni?

23

Leí el siguiente artículo: Perneger (1998) ¿Qué hay de malo con los ajustes de Bonferroni ?

El autor resumió diciendo que el ajuste de Bonferroni tiene, en el mejor de los casos, aplicaciones limitadas en la investigación biomédica y no debe usarse al evaluar la evidencia sobre hipótesis específicas:

Resumen de puntos:

  • Ajustar la significación estadística para la cantidad de pruebas que se han realizado en los datos del estudio, el método Bonferroni, crea más problemas de los que resuelve
  • El método de Bonferroni se refiere a la hipótesis nula general (que todas las hipótesis nulas son verdaderas simultáneamente), que rara vez es de interés o uso para los investigadores
  • La principal debilidad es que la interpretación de un hallazgo depende del número de otras pruebas realizadas
  • La probabilidad de errores de tipo II también aumenta, de modo que las diferencias verdaderamente importantes se consideran no significativas
  • Simplemente describir qué pruebas de significación se han realizado y por qué, generalmente es la mejor manera de lidiar con comparaciones múltiples

Tengo el siguiente conjunto de datos y quiero hacer varias pruebas de corrección PERO no puedo decidir el mejor método en este caso.

ingrese la descripción de la imagen aquí

Quiero saber si es imprescindible hacer este tipo de corrección para todos los conjuntos de datos que contienen listas de medios y cuál es el mejor método para la corrección en este caso.

goro
fuente
¿Qué es exactamente 'significa A', 'significa B' ...?
3
Al no corregir las comparaciones múltiples, corre el riesgo de obtener resultados irreproducibles. Muchos campos, incluida la medicina y la psicología, han descubierto recientemente que eso es exactamente lo que sucedió: gran parte de lo que "saben" en base a valores p no corregidos resulta que no es así. Sin que parezca cínico, parece que la elección es clara: el investigador que necesita cumplir con un criterio de valor p para publicar no corregirá; el escéptico que quiere conocimiento lo hará.
whuber
@whuber, pero ¿se puede seguir considerando reproducible cuando hay tantos métodos diferentes para corregir los valores p? En su respuesta, martino incluso da pautas para elegir entre métodos menos conservadores o más poderosos.
Nakx
La reproducibilidad de @Nakx solo se asocia libremente con el procedimiento estadístico: se refiere a si se obtendrán o no resultados comparables cuando la investigación sea realizada de forma independiente por otros (y presumiblemente en tales intentos de replicación, se articulará de antemano una única hipótesis clara y se utilizará un procedimiento estadístico apropiado para esa hipótesis). Si el procedimiento original no produce un valor p correcto, entonces, cuando se usa muchas veces para muchos estudios independientes, en promedio tomará más determinaciones irreproducibles de lo que sus usuarios pretenden o esperan.
whuber

Respuestas:

23

Lo que está mal con la corrección de Bonferroni además del conservadurismo mencionado por otros es lo que está mal con todas las correcciones de multiplicidad. No se desprenden de principios estadísticos básicos y son arbitrarios; No existe una solución única al problema de la multiplicidad en el mundo frecuentista. En segundo lugar, los ajustes de multiplicidad se basan en la filosofía subyacente de que la veracidad de una declaración depende de qué otras hipótesis se tengan en cuenta. Esto es equivalente a una configuración bayesiana donde la distribución previa de un parámetro de interés se vuelve más conservadora a medida que se consideran otros parámetros. Esto no parece ser coherente. Se podría decir que este enfoque proviene de investigadores que han sido "quemados" por una historia de experimentos falsos positivos y ahora quieren compensar sus fechorías.

Para ampliar un poco, considere la siguiente situación. Un investigador de oncología ha hecho una carrera estudiando la eficacia de las quimioterapias de una clase determinada. Los 20 ensayos anteriores aleatorizados han dado como resultado una eficacia estadísticamente insignificante. Ahora está probando una nueva quimioterapia en la misma clase. El beneficio de supervivencia es significativo conPAGS=0,04. Un colega señala que se estudió un segundo criterio de valoración (contracción tumoral) y que es necesario aplicar un ajuste de multiplicidad al resultado de supervivencia, lo que representa un beneficio de supervivencia insignificante. ¿Cómo es que el colega enfatizó el segundo criterio de valoración pero no le importó menos adaptarse a los 20 intentos fallidos anteriores para encontrar un medicamento efectivo? ¿Y cómo tomaría en cuenta los conocimientos previos sobre los 20 estudios anteriores si no fuera bayesiano? ¿Qué pasaría si no hubiera habido un segundo punto final? ¿El colega cree que se ha demostrado un beneficio de supervivencia, ignorando todo conocimiento previo?

Frank Harrell
fuente
2
No está claro en la referencia a 'repetible'. Si hay una sola prueba, sin necesidad de ajustes de multiplicidad, la posibilidad de que se repita un resultado con no es alta. PAGS=0,04
Frank Harrell
2
Para responder a @MJA, creo que hay dos enfoques preferidos: (1) ser bayesiano o (2) priorizar las hipótesis e informar los resultados en contexto, en orden de prioridad.
Frank Harrell
3
No hay nada de principios al respecto ni es exacto de ninguna manera. La desigualdad de Bonferroni es un límite superior solo para la probabilidad de error. ¿Por qué gastar igual en 5 parámetros? ¿Por qué no hacer una región elipsoidal en lugar de una rectangular para la región de aceptación? ¿Por qué no usar el método de Scheffe o Tukey? ¿Por qué no usar una prueba compuesta simple tipo ANOVA? Usted no alcanzar la deseada α mediante el uso de una de la igualdad. αα
Frank Harrell el
2
Está confundiendo dos tasas de error. Bajo nulo, Bonferroni EXACTAMENTE mantiene el número esperado de errores por familia. Da un LÍMITE SUPERIOR sobre la probabilidad de "al menos un" error por familia (que depende de la correlación). Gastar alfa por igual en las 5 pruebas es perfectamente lógico dado que no hay una razón particular para priorizar las pruebas de una manera diferente. Dado otro contexto, hay razones de principios para hacer lo contrario. Parece implicar que es "sin principios" usar un método matemáticamente sólido simplemente porque existen métodos alternativos dados otros contextos, objetivos y suposiciones.
Bonferroni
2
@FrankHarrell Sus otras preguntas solo sirven para ilustrar mi punto. A menudo hay numerosas opciones de estadística de prueba, procedimiento de prueba, etc., incluso en ausencia de multiplicidad. Eso no hace que la metodología sea "arbitraria" en el sentido en que parece implicar. Si uno está interesado en una prueba general, entonces realice una. Si uno solo está interesado en las pruebas univariadas, entonces realice todas las pruebas univariadas. ¿Está sugiriendo seriamente que es "arbitrario" seleccionar la prueba que aborda la pregunta que le interesa en lugar de alguna otra pregunta?
Bonferroni
12

Resumió diciendo que el ajuste de Bonferroni tiene, en el mejor de los casos, aplicaciones limitadas en la investigación biomédica y no debe usarse al evaluar la evidencia sobre hipótesis específicas.

La corrección de Bonferroni es una de las técnicas de comparaciones múltiples más simples y conservadoras. También es uno de los más antiguos y se ha mejorado mucho con el tiempo. Es justo decir que los ajustes de Bonferroni tienen una aplicación limitada en casi todas las situaciones. Es casi seguro que hay un mejor enfoque. Es decir, deberá corregir las comparaciones múltiples, pero puede elegir un método que sea menos conservador y más potente.

Menos conservador

Los métodos de comparaciones múltiples protegen contra obtener al menos un falso positivo en una familia de pruebas. Si realiza una prueba en el nivel , entonces tiene una probabilidad del 5% de obtener un falso positivo. En otras palabras, rechaza su hipótesis nula erróneamente. Si realiza 10 pruebas en el nivel α = 0.05 , esto aumenta a 1 - ( 1 - 0.05 ) 10 = ~ 40% de probabilidad de obtener un falso positivoαα=0,051-(1-0,05)10

Con el método Bonferroni, utiliza un en el extremo más bajo de la escala (es decir, α b = α / n ) para proteger a su familia de n pruebas en el nivel α . En otras palabras, es el más conservador. Ahora, puede aumentar α b por encima del límite inferior establecido por Bonferroni (es decir, hacer que su prueba sea menos conservadora) y aún así proteger a su familia de pruebas en el nivel α . Hay muchas maneras de hacer esto, el método Holm-Bonferroni, por ejemplo, o mejor aún, False Discovery Rateαsiαsi=α/ /nortenααbα

Mas poderoso

Un buen punto que se menciona en el documento al que se hace referencia es que la probabilidad de errores de tipo II también aumenta, de modo que las diferencias verdaderamente importantes se consideran no significativas.

Esto es muy importante. Una prueba poderosa es aquella que encuentra resultados significativos si existen. Al usar la corrección de Bonferroni, terminas con una prueba menos poderosa. Como Bonferroni es conservador, es probable que el poder se reduzca considerablemente. Nuevamente, uno de los métodos alternativos, por ejemplo, False Discovery Rate, aumentará el poder de la prueba. En otras palabras, no solo protege contra falsos positivos, sino que también mejora su capacidad de encontrar resultados verdaderamente significativos.

Entonces sí, debe aplicar alguna técnica de corrección cuando tenga comparaciones múltiples. Y sí, Bonferroni probablemente debería evitarse en favor de un método menos conservador y más poderoso.

martino
fuente
Hay varias alternativas: Holm Bonferroni, por ejemplo, es simple y fácil de entender. Por qué no darle luz verde. Digamos que su aplicación está en la expresión génica o en la expresión de proteínas, donde está probando posiblemente miles de variables en un experimento y luego se usa su FDR.
martino
Su método para calcular la probabilidad del 40% de falsos positivos en diez pruebas se basa en que sus pruebas sean eventos independientes, pero con datos reales es poco probable que sea así. Creo que al menos es digno de comentario.
Silverfish
También me preocupa que esta respuesta parezca combinar métodos para preservar la tasa de error familiar con los de la tasa de descubrimiento falso. No es una mala idea hablar de estas dos cosas, pero dado que hacen diferentes trabajos, no creo que deberían presentarse como equivalentes
Silverfish
Pero si entiendo bien, ¿las FDR (tasas de descubrimiento falsas) no garantizan el control de errores tipo I a un nivel predeterminado? (ver también mi respuesta a esta pregunta)
Pero, ¿no es más transparente y útil informar todos los valores p sin procesar en un artículo, de modo que los lectores puedan juzgar por sí mismos su validez o elegir cuál de la miríada de métodos de ajuste quieren usar?
Nakx
5

Thomas Perneger no es estadístico y su trabajo está lleno de errores. Entonces no me lo tomaría demasiado en serio. En realidad ha sido muy criticado por otros. Por ejemplo, Aickin dijo que el artículo de Perneger "consiste casi por completo en errores": Aickin, "Existe otro método para el ajuste de pruebas múltiples", BMJ. 9 de enero de 1999; 318 (7176): 127.

Además, ninguno de los valores p de la pregunta original es <0,05 de todos modos, incluso sin un ajuste de multiplicidad. Entonces, probablemente no importa qué ajuste (si alguno) se usa.

Bonferroni
fuente
44
Gracias por el enlace! He agregado una referencia más completa. Esto sigue siendo más un comentario que una respuesta y estoy seguro de que tiene algo interesante para agregar, o al menos un breve resumen de lo que dice Aicken. Sin relación con eso: decir que Perneger no tiene experiencia en estadísticas no parece cierto (según ningún estándar razonable), amable o útil: ¿consideraría eliminar la declaración?
Scortchi - Restablece a Monica
@Scortchi he cambiado "no tiene experiencia en estadísticas" a "no es un estadístico". Por cierto, no estoy de acuerdo con que no sea útil distinguir las opiniones de expertos de las opiniones de no expertos.
Bonferroni
2
Por lo que puedo decir, Perneger no tiene un título en estadística y nunca ha publicado un artículo en una revista estadística. El artículo citado en la pregunta es un artículo de opinión en BMJ que ha sido llamado por estar completamente equivocado. Entonces, ¿cuál es la supuesta experiencia de Perneger que es indiscutible "más allá de cualquier estándar razonable"? Ser "amable" no debería interferir con la verdad.
Bonferroni
3
Por lo que puedo decir, es profesor en un hospital universitario con una maestría en bioestadística y un doctorado en epidemiología que imparte clases de estadísticas médicas y publica análisis de ensayos clínicos y estudios de observación en revistas médicas. Si deduce de esa "no experiencia estadística", creo que su estándar es bastante más alto de lo que razonablemente podría esperar que sus lectores asuman. (Que es lo que debería haber dicho antes que el estándar no era razonable.) De todos modos, ¡gracias por editarlo!
Scortchi - Restablece a Monica
5

Tal vez sea bueno explicar el "razonamiento detrás" de múltiples correcciones de prueba como la de Bonferroni. Si eso está claro, podrá juzgarse si debe aplicarlos o no.

μH0:μ=0

H1:μ0 0H0:μ=0α

H0 0H0 0

H0H0H1

La evidencia falsa es algo malo en la ciencia porque creemos haber adquirido un verdadero conocimiento sobre el mundo, pero de hecho podemos haber tenido mala suerte con la muestra. En consecuencia, este tipo de errores debe ser controlado. Por lo tanto, uno debe poner un límite superior a la probabilidad de este tipo de evidencia, o uno debe controlar el error tipo I. Esto se hace fijando un nivel de significancia aceptable por adelantado.

5%H0 05%H0H1H1

H0:μ1=0&μ2=0 0H1:μ10|μ20α=0.05

H0(1):μ1=0H0(1):μ10H1(2):μ2=0H1(2):μ20α=0.05

H0(1)H0(1)

1(10.05)2=0.0975α

¡El hecho importante aquí es que las dos pruebas se basan en una y la muestra de muestra!

Tenga en cuenta que hemos asumido la independencia. Si no puede asumir la independencia, puede demostrar, utilizando la desigualdad de Bonferroni $, que el error de tipo I puede inflarse hasta 0.1.

Tenga en cuenta que Bonferroni es conservador y que el procedimiento paso a paso de Holm se mantiene bajo los mismos supuestos que para Bonferroni, pero el procedimiento de Holm tiene más poder.

Cuando las variables son discretas, es mejor usar estadísticas de prueba basadas en el valor p mínimo y si está listo para abandonar el control de errores de tipo I al realizar una gran cantidad de pruebas, los procedimientos de False Discovery Rate pueden ser más potentes.

EDITAR:

Si, por ejemplo (ver el ejemplo en la respuesta de @Frank Harrell)

H0(1):μ1=0H1(1):μ10

H0(2):μ1=0H1(2):μ20

H0(12):μ1=0&μ2=0H1(12):μ10|μ20

H0(1)H1(1)H0(2)H1(2)


fuente
2
Creo que esta pregunta se beneficia de una respuesta como esta, pero sugiero ajustar la redacción de "Entonces, si fijamos nuestro nivel de significancia en 5%, entonces estamos diciendo que estamos listos para aceptar encontrar evidencia falsa (debido a la mala suerte con la muestra ) con una probabilidad del 5% "... Esa es solo la probabilidad de error si el nulo es realmente cierto , y eso vale la pena decirlo. (¿Es "evidencia falsa" un término común? Estoy más acostumbrado a ver "falso positivo".)
Silverfish
@Lepisma; Lo reformulé un poco, ¿crees que es mejor así?
1
Creo que eso es mejor: "estadísticamente probado" probablemente también se beneficiaría de la reformulación, sé que esta es la cantidad de personas que interpretan p <0.05 o lo que sea, ¡pero por supuesto no es realmente una prueba!
Silverfish
@Silverfish: estoy totalmente de acuerdo en que no es una '' prueba '', pero utilicé el término por razones didácticas, porque comencé por la analogía de la prueba por contradicción. Agregaré una aclaración de este tipo al principio
Tu edición es confusa. El "efecto de la quimioterapia" en el ejemplo de Frank se mide a través de dos medidas: la tasa de supervivencia y la reducción del tumor. Ambos pueden ser influenciados por la quimioterapia. La hipótesis es obviamente que la quimioterapia funciona. Pero las "obras" se pueden cuantificar de dos maneras diferentes. Ese es el aspecto vago del que he estado hablando en tu nuevo hilo.
ameba dice Reinstate Monica
4

Una buena discusión sobre la corrección de Bonferroni y el tamaño del efecto http://beheco.oxfordjournals.org/content/15/6/1044.full.pdf+html Además, vale la pena considerar la corrección de Dunn-Sidak y el enfoque de probabilidades combinadas de Fisher como alternativas. Independientemente del enfoque, vale la pena informar los valores p ajustados y brutos más el tamaño del efecto, para que el lector pueda tener la libertad de interpretarlos.

katya
fuente
El consejo de presentar valores p crudos y ajustados siempre me ha parecido sensato, pero ¿se considera generalmente la norma, o incluso aceptable?
Silverfish
3

Por un lado, es extremadamente conservador. El método Holm-Bonferroni logra lo que logra el método Bonferonni (control de la tasa de errores sabios de la familia) al mismo tiempo que es uniformemente más poderoso.

TrynnaDoStat
fuente
¿Eso significa que necesito usar este método para corregir mis resultados o debo aceptar los resultados dependiendo de mi hipótesis?
goro
No sé a qué te refieres con "Debería aceptar los resultados dependiendo de mi hipótesis" pero sí, deberías aplicar algún tipo de corrección de prueba múltiple porque de lo contrario estás inflando mucho el error tipo 1.
TrynnaDoStat
Lo que quise decir con "debería aceptar los resultados dependiendo de mi hipótesis" es que ejecuté mi análisis de tres maneras diferentes, incluyendo GLM y métodos de permutación. Todos los métodos me dieron resultados significativos y esos resultados respaldan mi hipótesis de que debería tener una diferencia significativa entre los grupos. Cuando usé Bonferroni para la corrección múltiple Todos mis resultados no fueron significativos. Es por eso que estoy confundido. ¿Este método no es óptimo para mi análisis, por lo que puedo usar uno diferente o puedo confiar en mis resultados dependiendo de los resultados de los otros métodos sin usar Bonferroni?
goro
1
Está bien, entiendo lo que estás diciendo. Si probaras la misma hipótesis de 3 formas diferentes, no aplicaría una corrección de prueba múltiple. La razón es que estos tres resultados de la prueba son presumiblemente altamente dependientes el uno del otro.
TrynnaDoStat
3

Uno debería mirar los métodos de "tasa de descubrimiento falso" como una alternativa menos conservadora a Bonferroni. Ver

John D. Storey, "LA TASA POSITIVA DE DESCUBRIMIENTO FALSO: UNA INTERPRETACIÓN BAYESIANA Y EL VALOR q", The Annals of Statistics 2003, vol. 31, núm. 6, 2013–2035.

John Mark
fuente
3
Sin embargo, estos controlan cosas diferentes. FDR asegura que hasta un 5% (o lo que sea su alfa) de sus llamadas son falsos positivos, lo que es diferente de preservar la tasa de error familiar (que es lo que hace Bonferroni).
Matt Krause
@Matt Krause: ¿Y si entiendo bien, el FDR (tasas de descubrimiento falso) no garantiza el control de errores tipo I a un nivel predeterminado? (vea también mi respuesta a esta pregunta)