¿Son necesarias las correcciones de comparaciones múltiples para las “comparaciones múltiples” informales / visuales?

9

Tengo una especie de pregunta filosófica sobre cuándo es necesaria la corrección de comparación múltiple.

Estoy midiendo una señal continua que varía en el tiempo (en puntos de tiempo discretos). Eventos separados ocurren de vez en cuando y me gustaría establecer si estos eventos tienen un efecto significativo en la señal medida.

Entonces puedo tomar la señal media que sigue a un evento, y generalmente puedo ver algún efecto allí con un cierto pico. Si elijo el momento de ese pico y digo una prueba t para determinar si es significativo frente a cuando el evento no ocurre, ¿necesito hacer una corrección de comparación múltiple?

Aunque solo realicé una prueba t (valor calculado 1), en mi inspección visual inicial seleccioné la que tenía el mayor efecto potencial de los (digamos) 15 puntos de tiempo de retraso diferentes que tracé. Entonces, ¿necesito hacer una corrección de comparación múltiple para esas 15 pruebas que nunca realicé?

Si no utilicé la inspección visual, pero solo hice la prueba en cada retraso del evento y elegí la más alta, seguramente tendría que corregirla. Estoy un poco confundido sobre si necesito o no si la selección del "mejor retraso" se realiza por algún otro criterio que no sea la prueba en sí (por ejemplo, selección visual, media más alta, etc.)

Thrope
fuente

Respuestas:

11

Técnicamente, cuando haces una preselección visual de dónde hacer la prueba, ya debes corregir eso: tus ojos y tu cerebro ya pasan por alto algunas incertidumbres en los datos, que no tienes en cuenta si simplemente haces la prueba en ese punto .

Imagine que su "pico" es realmente una meseta, y usted elige manualmente la diferencia del "pico", luego realiza una prueba al respecto y resulta apenas significativa. Si tuviera que ejecutar la prueba un poco más hacia la izquierda o hacia la derecha, el resultado podría cambiar. De esta manera, debe tener en cuenta el proceso de preselección: ¡no tiene la certeza de que declara! Está utilizando los datos para hacer la selección, por lo que efectivamente está utilizando la misma información dos veces.

Por supuesto, en la práctica, es muy difícil dar cuenta de algo como un proceso de selección manual, pero eso no significa que no deba (o al menos tomar / indicar los intervalos de confianza / resultados de prueba resultantes con un grano de sal).

Conclusión : siempre debe corregir las comparaciones múltiples si realiza comparaciones múltiples, independientemente de cómo haya seleccionado esas comparaciones. Si no se seleccionaron antes de ver los datos, debe corregir eso además.

Nota: una alternativa a la corrección para la preselección manual (por ejemplo, cuando es prácticamente imposible) es probablemente indicar sus resultados para que obviamente contengan referencias a la selección manual. Pero eso no es 'investigación reproducible', supongo.

Nick Sabbe
fuente
1
Sin embargo, siempre hacer correcciones aumenta su tasa de error tipo II. Si tiene todos los resultados significativos antes de la corrección, puede perderlos todos después de la corrección, sin tener en cuenta las bajas probabilidades de obtener todos los resultados significativos. Esto puede depender del costo de un error tipo I o tipo II en su contexto.
Etienne Low-Décarie
Nick dio la respuesta que me gustaría haber dado si fuera el primero en responder. Sin embargo, en la configuración inicial, usted (mkpitas) dijo que si realmente realizara las 15 pruebas, no tendría que hacer la corrección de multiplicidad. No veo por qué dirías eso. Creo que en ese caso la necesidad de corrección de multiplicidad se vuelve más obvia. @etienne su punto se aplica a la corrección FWER, que es muy estricta para controlar el error tipo I. Si usa FDR, no sacrificará tanta potencia.
Michael R. Chernick
8

Hace mucho tiempo, en una de mis primeras clases de estadísticas, estaba leyendo sobre esto en un texto (creo que era una edición antigua del libro de Cohen sobre la regresión) donde decía "esta es una pregunta sobre qué personas razonables pueden diferir".

No está claro para mí que alguien deba corregir las comparaciones múltiples, ni, si lo hacen, durante qué período o conjunto de comparaciones deberían corregir. Cada articulo? Cada regresión o ANOVA? ¿Todo lo que publican sobre un tema? ¿Qué pasa con lo que OTRAS personas publican?

Mientras escribes en tu primera línea, es filosófico.

Peter Flom - Restablece a Monica
fuente
44
Tienes razón en que hay una pregunta sobre cuántas comparaciones se están haciendo, pero no creo que implique tu conclusión. Las personas razonables pueden diferir porque tienen objetivos diferentes y valoraciones diferentes (funciones de pérdida) para los posibles resultados. Si debe corregir las comparaciones múltiples, esto se debe a que conduce a una mejor pérdida esperada. Como tal, este es un tema intensamente práctico, no una mera "filosofía", y hay formas racionales de resolverlo en las que las personas razonables pueden estar de acuerdo.
whuber
2
@whuber seguramente tienes razón en algunas situaciones. A veces hay una función de pérdida sensible, aunque a menudo es difícil obtener una explícita. Pero otras veces, por ejemplo, en trabajos exploratorios, tengo problemas para ver cómo es posible cualquier función de pérdida. Por supuesto, la idea de la función de pérdida completa nos aleja de la estatura grial de p = .05, y la suposición típica de que potencia = .8 o .9 es lo suficientemente buena, y hacia (en mi opinión) una idea más sensata de que Los establecemos sobre bases más sustantivas.
Peter Flom - Restablece a Monica
1
Gracias por aclarar el alcance y el espíritu de su respuesta, Peter.
whuber
44
Me enfurezco cuando la gente dice que las pruebas de multiplicidad no importan. Veo esta actitud expresada con demasiada frecuencia en la investigación médica. Puede señalar muchos documentos que llegaron a conclusiones incorrectas porque se ignoró la multiplicidad. Es fundamental no publicar artículos con conclusiones erróneas en medicina porque afecta la forma en que se trata a los pacientes y las vidas están en juego. Multiplicidad contribuye al sesgo de publicación (ya que cuando un tema es estudiado muchas veces sólo los estudios con resultados significativos se publican), que es un problema grave en el metanálisis,
Michael R. Chernick
1
@MichaelChernick, estoy de acuerdo, es muy problemático cuando las personas ignoran las múltiples correcciones de prueba. Sin embargo, creo que Peter saca un buen punto: ¿cuál debería ser el alcance de las pruebas múltiples? Todas las pruebas realizadas en un solo documento? ¿Todas las pruebas realizadas con un solo conjunto de datos? ¿Todas las pruebas realizadas desde el principio de los tiempos? No parece haber una respuesta claramente correcta.
Macro
4

Si está tratando de tomar decisiones únicas sobre la realidad y desea controlar la tasa a la que rechaza falsamente la hipótesis nula, entonces utilizará la prueba de significación de hipótesis nula (NHST) y querrá usar la corrección para comparaciones múltiples. Sin embargo, como Peter Flom señala en su respuesta, no está claro cómo definir el conjunto de comparaciones sobre las cuales aplicar la corrección. La opción más fácil es el conjunto de comparaciones aplicadas a un conjunto de datos dado, y este es el enfoque más común.

Sin embargo, podría decirse que la ciencia se concibe mejor como un sistema acumulativo en el que las decisiones puntuales no son necesarias y, de hecho, solo sirven para reducir la eficiencia de la acumulación de evidencia (reduciendo la evidencia obtenida a un solo bit de información). Por lo tanto, si uno sigue un enfoque científico adecuado para el análisis estadístico, evitando el NHST para herramientas como las razones de probabilidad (posiblemente también enfoques bayesianos), entonces el "problema" de las comparaciones múltiples desaparece.

Mike Lawrence
fuente
1

Una posible alternativa a la corrección, dependiendo de su pregunta, es probar la importancia de la suma de los valores p. Incluso puede penalizarse por pruebas que no se realizan agregando valores p altos.

Se podrían usar extensiones (que no requieren independencia) del método de Fisher (que requieren independencia de prueba).

P.ej. Método de Kost

Etienne Low-Décarie
fuente
Estos son ejemplos de procedimientos utilizados en el metanálisis cuando los estudios individuales solo proporcionan valores p o los datos no se pueden combinar pero cada estudio tiene un valor p calculado. Además, el método de combinación de Fisher y la normal inversa son formas de construir reglas de detención en diseños adaptativos.
Michael R. Chernick
1

Una cosa muy importante para recordar es que la corrección de pruebas múltiples supone pruebas independientes. Si los datos que analiza no son independientes, las cosas se vuelven un poco más complicadas que simplemente corregir el número de pruebas realizadas, debe tener en cuenta la correlación entre los datos que se analizan o su corrección probablemente será demasiado conservadora y lo hará. tener una alta tasa de error tipo II. He descubierto que la validación cruzada, las pruebas de permutación o el arranque pueden ser formas efectivas de lidiar con comparaciones múltiples si se usan correctamente. Otros han mencionado el uso de FDR, pero esto puede dar resultados incorrectos si hay mucha falta de independencia en sus datos, ya que supone que los valores p son uniformes en todas las pruebas bajo nulo.

Mate
fuente
2
Bienvenido al sitio, Matt. Con respecto a su oración inicial: Una cosa muy importante para recordar es que la corrección de pruebas múltiples supone pruebas independientes. Tenga en cuenta que esto es cierto para algunos procedimientos de corrección de pruebas múltiples, pero ciertamente no todos. Por ejemplo, el más simple de todos (Bonferroni) no asume la independencia y, de hecho, es bastante ineficiente si las pruebas son realmente independientes. :-) Además, en una configuración de distribución continua, la distribución (marginal) de un solo valor será uniforme debajo de nulo; puede considerar editar para aclarar sus comentarios. p
cardenal