¿Por qué la comparación múltiple es un problema?

44

Me resulta difícil entender cuál es realmente el problema con las comparaciones múltiples . Con una analogía simple, se dice que una persona que tomará muchas decisiones cometerá muchos errores. Por lo tanto, se aplica una precaución muy conservadora, como la corrección de Bonferroni, para que la probabilidad de que esta persona cometa algún error sea lo más baja posible.

Pero, ¿por qué nos importa si la persona ha cometido algún error en todas las decisiones que ha tomado, en lugar del porcentaje de las decisiones incorrectas?

Permítanme tratar de explicar lo que me confunde con otra analogía. Supongamos que hay dos jueces, uno tiene 60 años y el otro tiene 20 años. Luego, la corrección de Bonferroni le dice al que tiene 20 años que sea lo más conservador posible, al decidir la ejecución, porque trabajará durante muchos años más como juez, tomará muchas más decisiones, por lo que debe tener cuidado. Pero el que tiene 60 años posiblemente se jubile pronto, tomará menos decisiones, por lo que puede ser más descuidado en comparación con el otro. Pero en realidad, ambos jueces deben ser igualmente cuidadosos o conservadores, independientemente de la cantidad total de decisiones que tomen. Creo que esta analogía se traduce más o menos en los problemas reales en los que se aplica la corrección de Bonferroni, lo que me parece contradictorio.

AgCl
fuente
8
No es realmente una respuesta a su pregunta, pero ¿ha encontrado tasas de descubrimiento falso (FDR)? "Beyond Bonferroni" por Narum: springerlink.com/content/c5047h0084528056
apeescape

Respuestas:

40

Has declarado algo que es un argumento contrario clásico a las correcciones de Bonferroni. ¿No debería ajustar mi criterio alfa en función de cada prueba que realice? Este tipo de implicación ad absurdum es la razón por la cual algunas personas no creen en absoluto en las correcciones de estilo Bonferroni. A veces, el tipo de datos con los que uno trata en su carrera es tal que no es un problema. Para los jueces que toman una o muy pocas decisiones sobre cada nueva evidencia, este es un argumento muy válido. Pero, ¿qué pasa con el juez con 20 acusados ​​y quién basa su juicio en un solo conjunto de datos (por ejemplo, tribunales de guerra)?

Estás ignorando las patadas en la lata parte del argumento. En general, los científicos están buscando algo: un valor p menor que alfa. Cada intento de encontrar uno es otra patada en la lata. Eventualmente uno encontrará uno si le dispara lo suficiente. Por lo tanto, deberían ser penalizados por hacerlo.

La forma en que armoniza estos dos argumentos es darse cuenta de que ambos son ciertos. La solución más simple es considerar probar las diferencias dentro de un único conjunto de datos como una patada al tipo de problema, pero expandir el alcance de la corrección fuera de eso sería una pendiente resbaladiza.

Este es un problema realmente difícil en varios campos, especialmente FMRI, donde se comparan miles de puntos de datos y es probable que algunos resulten significativos por casualidad. Dado que el campo ha sido históricamente muy exploratorio, uno tiene que hacer algo para corregir el hecho de que cientos de áreas del cerebro se verán significativas por pura casualidad. Por lo tanto, se han desarrollado muchos métodos de ajuste de criterios en ese campo.

Por otro lado, en algunos campos, a lo sumo, uno podría estar mirando de 3 a 5 niveles de una variable y siempre simplemente probar cada combinación si se produce un ANOVA significativo. Se sabe que esto tiene algunos problemas (errores de tipo 1) pero no es particularmente terrible.

Depende de tu punto de vista. El investigador de FMRI reconoce una necesidad real de un cambio de criterio. La persona que mira un ANOVA pequeño puede sentir que claramente hay algo allí de la prueba. El punto de vista conservador adecuado en las comparaciones múltiples es hacer siempre algo al respecto, pero solo en función de un único conjunto de datos. Cualquier dato nuevo restablece el criterio ... a menos que sea bayesiano ...

John
fuente
Gracias, ha sido de mucha ayuda. Lo votaré cuando tenga suficiente representante.
AgCl
El investigador de FMRI probablemente también usaría el criterio de la tasa de descubrimiento falso (FDR), ya que garantiza alfa * 100% de falsos positivos durante un largo período de pruebas.
Brandon Sherman
@John, ¿puedes responder a esta pregunta stats.stackexchange.com/questions/431011/… Me encantaría , si puedes ayudarme?
Sabbir Ahmed
26

Los estadísticos respetados han tomado una amplia variedad de posiciones en múltiples comparaciones. Es un tema sutil. Si alguien piensa que es simple, me pregunto cuánto han pensado al respecto.

Aquí hay una interesante perspectiva bayesiana sobre las pruebas múltiples de Andrew Gelman: ¿Por qué (generalmente) no nos preocupamos por las comparaciones múltiples ?

John D. Cook
fuente
2
Lo que encuentro interesante sobre este artículo es que la perspectiva es bayesiana, pero el enfoque de modelado jerárquico ofrecido para reemplazar las correcciones para comparaciones múltiples no requiere que seas bayesiano.
conjugateprior
1
Solo estaba mirando ese artículo; Creo que tal vez necesita ser citado más. Odio los efectos de descarga por el desagüe porque las técnicas avanzadas de comparación múltiple no son bien conocidas o fáciles de hacer. Por el contrario, un enfoque más lento es muy simple. Me pregunto si hay problemas serios con eso que deben considerarse.
russellpierce
13

En relación con el comentario anterior, lo que el investigador de fMRI debe recordar es que los resultados clínicamente importantes son lo que importa, no el cambio de densidad de un solo píxel en una fMRI del cerebro. Si no resulta en una mejora / detrimento clínico, no importa. Esa es una forma de reducir la preocupación por las comparaciones múltiples.

Ver también:

  1. Bauer, P. (1991). Pruebas múltiples en ensayos clínicos. Stat Med, 10 (6), 871-89; discusión 889-90.
  2. Proschan, MA y Waclawiw, MA (2000). Pautas prácticas para el ajuste de multiplicidad en ensayos clínicos. Control Clin Trials, 21 (6), 527-39.
  3. Rothman, KJ (1990). No se necesitan ajustes para comparaciones multiples. Epidemiología (Cambridge, Mass.), 1 (1), 43-6.
  4. Perneger, TV (1998). ¿Qué hay de malo con los ajustes bonferroni? BMJ (Clinical Research Ed.), 316 (7139), 1236-8.
pmgjones
fuente
Esto también vale la pena citar: prefrontal.org/files/posters/Bennett-Salmon-2009.jpg
nico
¡Estoy seguro de que se divirtieron mucho preguntándole a un salmón muerto sobre sus emociones!
nico
Esta publicación también tiene referencias útiles relacionadas con los ECA: j.mp/bAgr1B .
chl
10

Para arreglar ideas: tomaré el caso cuando anule, variables aleatorias independientes modo que para se extraiga de . Supongo que quieres saber cuál tiene una media distinta de cero, formalmente quieres probar:n(Xi)i=1,,ni=1,,n XiN(θi,1)

H0i:θi=0 VsH1i:θi0

Definición de un umbral: tiene decisiones que tomar y puede tener un objetivo diferente. Para una prueba determinada Sin duda va a elegir un umbral y decidir no aceptar si .niτiH0i|Xi|>τi

Diferentes opciones: debe elegir los umbrales y para eso tiene dos opciones :τi

  1. elige el mismo umbral para todos

  2. para elegir un umbral diferente para todos (la mayoría de las veces un umbral de datos, ver más abajo).

Diferentes objetivos: estas opciones se pueden impulsar para diferentes objetivos , como

  • Controlar la probabilidad de rechazar erróneamente para uno o más de un .H0ii
  • Controlar la expectativa de la tasa de falsa alarma (o tasa de descubrimiento falso)

    Cualquiera que sea su objetivo al final, es una buena idea usar un umbral de datos.

Mi respuesta a su pregunta: su intuición está relacionada con la heurística principal para elegir un umbral de datos. Es el siguiente (en el origen del procedimiento de Holm, que es más poderoso que Bonferoni):

Imagine que ya ha tomado una decisión para el más bajoy la decisión es aceptar para todos ellos. ¡Entonces solo tiene que hacer comparaciones y no se ha arriesgado a rechazar incorrectamente! Como no ha utilizado su presupuesto, puede correr un poco más de riesgo para la prueba restante y elegir un umbral más grande.| X i | H 0 i n - p H 0 ip|Xi|H0inpH0i

En el caso de sus jueces: supongo (y supongo que debería hacer lo mismo) que ambos jueces tienen los mismos presupuestos de falsas acusaciones para sus vidas. ¡El juez de 60 años puede ser menos conservador si, en el pasado, no acusó a nadie! Pero si ya hizo muchas acusaciones, será más conservador y tal vez incluso más que el juez más joven.

robin girard
fuente
Yo creo que hay un error tipográfico en sus hipótesis - ambos parecen ser el mismo ...
WalkyTalky
2

Un artículo ilustrativo (y divertido); http://www.jsur.org/ar/jsur_ben102010.pdf ) sobre la necesidad de corrección de pruebas múltiples en algún estudio práctico que desarrolle muchas variables, por ejemplo, fmri. Esta breve cita dice la mayor parte del mensaje:

"[...] completamos una sesión de exploración fMRI con un salmón atlántico post-mortem como sujeto. Al salmón se le mostró la misma tarea de toma de perspectiva social que luego se administró a un grupo de sujetos humanos".

eso es, en mi experiencia, un argumento excelente para alentar a los usuarios a usar múltiples correcciones de prueba.

peuhp
fuente