Tengo una especie de pregunta filosófica sobre cuándo es necesaria la corrección de comparación múltiple.
Estoy midiendo una señal continua que varía en el tiempo (en puntos de tiempo discretos). Eventos separados ocurren de vez en cuando y me gustaría establecer si estos eventos tienen un efecto significativo en la señal medida.
Entonces puedo tomar la señal media que sigue a un evento, y generalmente puedo ver algún efecto allí con un cierto pico. Si elijo el momento de ese pico y digo una prueba t para determinar si es significativo frente a cuando el evento no ocurre, ¿necesito hacer una corrección de comparación múltiple?
Aunque solo realicé una prueba t (valor calculado 1), en mi inspección visual inicial seleccioné la que tenía el mayor efecto potencial de los (digamos) 15 puntos de tiempo de retraso diferentes que tracé. Entonces, ¿necesito hacer una corrección de comparación múltiple para esas 15 pruebas que nunca realicé?
Si no utilicé la inspección visual, pero solo hice la prueba en cada retraso del evento y elegí la más alta, seguramente tendría que corregirla. Estoy un poco confundido sobre si necesito o no si la selección del "mejor retraso" se realiza por algún otro criterio que no sea la prueba en sí (por ejemplo, selección visual, media más alta, etc.)
Hace mucho tiempo, en una de mis primeras clases de estadísticas, estaba leyendo sobre esto en un texto (creo que era una edición antigua del libro de Cohen sobre la regresión) donde decía "esta es una pregunta sobre qué personas razonables pueden diferir".
No está claro para mí que alguien deba corregir las comparaciones múltiples, ni, si lo hacen, durante qué período o conjunto de comparaciones deberían corregir. Cada articulo? Cada regresión o ANOVA? ¿Todo lo que publican sobre un tema? ¿Qué pasa con lo que OTRAS personas publican?
Mientras escribes en tu primera línea, es filosófico.
fuente
Si está tratando de tomar decisiones únicas sobre la realidad y desea controlar la tasa a la que rechaza falsamente la hipótesis nula, entonces utilizará la prueba de significación de hipótesis nula (NHST) y querrá usar la corrección para comparaciones múltiples. Sin embargo, como Peter Flom señala en su respuesta, no está claro cómo definir el conjunto de comparaciones sobre las cuales aplicar la corrección. La opción más fácil es el conjunto de comparaciones aplicadas a un conjunto de datos dado, y este es el enfoque más común.
Sin embargo, podría decirse que la ciencia se concibe mejor como un sistema acumulativo en el que las decisiones puntuales no son necesarias y, de hecho, solo sirven para reducir la eficiencia de la acumulación de evidencia (reduciendo la evidencia obtenida a un solo bit de información). Por lo tanto, si uno sigue un enfoque científico adecuado para el análisis estadístico, evitando el NHST para herramientas como las razones de probabilidad (posiblemente también enfoques bayesianos), entonces el "problema" de las comparaciones múltiples desaparece.
fuente
Una posible alternativa a la corrección, dependiendo de su pregunta, es probar la importancia de la suma de los valores p. Incluso puede penalizarse por pruebas que no se realizan agregando valores p altos.
Se podrían usar extensiones (que no requieren independencia) del método de Fisher (que requieren independencia de prueba).
P.ej. Método de Kost
fuente
Una cosa muy importante para recordar es que la corrección de pruebas múltiples supone pruebas independientes. Si los datos que analiza no son independientes, las cosas se vuelven un poco más complicadas que simplemente corregir el número de pruebas realizadas, debe tener en cuenta la correlación entre los datos que se analizan o su corrección probablemente será demasiado conservadora y lo hará. tener una alta tasa de error tipo II. He descubierto que la validación cruzada, las pruebas de permutación o el arranque pueden ser formas efectivas de lidiar con comparaciones múltiples si se usan correctamente. Otros han mencionado el uso de FDR, pero esto puede dar resultados incorrectos si hay mucha falta de independencia en sus datos, ya que supone que los valores p son uniformes en todas las pruebas bajo nulo.
fuente