Me resulta difícil entender cuál es realmente el problema con las comparaciones múltiples . Con una analogía simple, se dice que una persona que tomará muchas decisiones cometerá muchos errores. Por lo tanto, se aplica una precaución muy conservadora, como la corrección de Bonferroni, para que la probabilidad de que esta persona cometa algún error sea lo más baja posible.
Pero, ¿por qué nos importa si la persona ha cometido algún error en todas las decisiones que ha tomado, en lugar del porcentaje de las decisiones incorrectas?
Permítanme tratar de explicar lo que me confunde con otra analogía. Supongamos que hay dos jueces, uno tiene 60 años y el otro tiene 20 años. Luego, la corrección de Bonferroni le dice al que tiene 20 años que sea lo más conservador posible, al decidir la ejecución, porque trabajará durante muchos años más como juez, tomará muchas más decisiones, por lo que debe tener cuidado. Pero el que tiene 60 años posiblemente se jubile pronto, tomará menos decisiones, por lo que puede ser más descuidado en comparación con el otro. Pero en realidad, ambos jueces deben ser igualmente cuidadosos o conservadores, independientemente de la cantidad total de decisiones que tomen. Creo que esta analogía se traduce más o menos en los problemas reales en los que se aplica la corrección de Bonferroni, lo que me parece contradictorio.
Respuestas:
Has declarado algo que es un argumento contrario clásico a las correcciones de Bonferroni. ¿No debería ajustar mi criterio alfa en función de cada prueba que realice? Este tipo de implicación ad absurdum es la razón por la cual algunas personas no creen en absoluto en las correcciones de estilo Bonferroni. A veces, el tipo de datos con los que uno trata en su carrera es tal que no es un problema. Para los jueces que toman una o muy pocas decisiones sobre cada nueva evidencia, este es un argumento muy válido. Pero, ¿qué pasa con el juez con 20 acusados y quién basa su juicio en un solo conjunto de datos (por ejemplo, tribunales de guerra)?
Estás ignorando las patadas en la lata parte del argumento. En general, los científicos están buscando algo: un valor p menor que alfa. Cada intento de encontrar uno es otra patada en la lata. Eventualmente uno encontrará uno si le dispara lo suficiente. Por lo tanto, deberían ser penalizados por hacerlo.
La forma en que armoniza estos dos argumentos es darse cuenta de que ambos son ciertos. La solución más simple es considerar probar las diferencias dentro de un único conjunto de datos como una patada al tipo de problema, pero expandir el alcance de la corrección fuera de eso sería una pendiente resbaladiza.
Este es un problema realmente difícil en varios campos, especialmente FMRI, donde se comparan miles de puntos de datos y es probable que algunos resulten significativos por casualidad. Dado que el campo ha sido históricamente muy exploratorio, uno tiene que hacer algo para corregir el hecho de que cientos de áreas del cerebro se verán significativas por pura casualidad. Por lo tanto, se han desarrollado muchos métodos de ajuste de criterios en ese campo.
Por otro lado, en algunos campos, a lo sumo, uno podría estar mirando de 3 a 5 niveles de una variable y siempre simplemente probar cada combinación si se produce un ANOVA significativo. Se sabe que esto tiene algunos problemas (errores de tipo 1) pero no es particularmente terrible.
Depende de tu punto de vista. El investigador de FMRI reconoce una necesidad real de un cambio de criterio. La persona que mira un ANOVA pequeño puede sentir que claramente hay algo allí de la prueba. El punto de vista conservador adecuado en las comparaciones múltiples es hacer siempre algo al respecto, pero solo en función de un único conjunto de datos. Cualquier dato nuevo restablece el criterio ... a menos que sea bayesiano ...
fuente
Los estadísticos respetados han tomado una amplia variedad de posiciones en múltiples comparaciones. Es un tema sutil. Si alguien piensa que es simple, me pregunto cuánto han pensado al respecto.
Aquí hay una interesante perspectiva bayesiana sobre las pruebas múltiples de Andrew Gelman: ¿Por qué (generalmente) no nos preocupamos por las comparaciones múltiples ?
fuente
En relación con el comentario anterior, lo que el investigador de fMRI debe recordar es que los resultados clínicamente importantes son lo que importa, no el cambio de densidad de un solo píxel en una fMRI del cerebro. Si no resulta en una mejora / detrimento clínico, no importa. Esa es una forma de reducir la preocupación por las comparaciones múltiples.
Ver también:
fuente
Para arreglar ideas: tomaré el caso cuando anule, variables aleatorias independientes modo que para se extraiga de . Supongo que quieres saber cuál tiene una media distinta de cero, formalmente quieres probar:n (Xi)i=1,…,n i=1,…,n Xi N(θi,1)
Definición de un umbral: tiene decisiones que tomar y puede tener un objetivo diferente. Para una prueba determinada Sin duda va a elegir un umbral y decidir no aceptar si .n i τi H0i |Xi|>τi
Diferentes opciones: debe elegir los umbrales y para eso tiene dos opciones :τi
elige el mismo umbral para todos
para elegir un umbral diferente para todos (la mayoría de las veces un umbral de datos, ver más abajo).
Diferentes objetivos: estas opciones se pueden impulsar para diferentes objetivos , como
Controlar la expectativa de la tasa de falsa alarma (o tasa de descubrimiento falso)
Cualquiera que sea su objetivo al final, es una buena idea usar un umbral de datos.
Mi respuesta a su pregunta: su intuición está relacionada con la heurística principal para elegir un umbral de datos. Es el siguiente (en el origen del procedimiento de Holm, que es más poderoso que Bonferoni):
Imagine que ya ha tomado una decisión para el más bajoy la decisión es aceptar para todos ellos. ¡Entonces solo tiene que hacer comparaciones y no se ha arriesgado a rechazar incorrectamente! Como no ha utilizado su presupuesto, puede correr un poco más de riesgo para la prueba restante y elegir un umbral más grande.| X i | H 0 i n - p H 0 ip |Xi| H0i n−p H0i
En el caso de sus jueces: supongo (y supongo que debería hacer lo mismo) que ambos jueces tienen los mismos presupuestos de falsas acusaciones para sus vidas. ¡El juez de 60 años puede ser menos conservador si, en el pasado, no acusó a nadie! Pero si ya hizo muchas acusaciones, será más conservador y tal vez incluso más que el juez más joven.
fuente
Un artículo ilustrativo (y divertido); http://www.jsur.org/ar/jsur_ben102010.pdf ) sobre la necesidad de corrección de pruebas múltiples en algún estudio práctico que desarrolle muchas variables, por ejemplo, fmri. Esta breve cita dice la mayor parte del mensaje:
eso es, en mi experiencia, un argumento excelente para alentar a los usuarios a usar múltiples correcciones de prueba.
fuente