Entiendo la intuición detrás del MCP, pero tengo problemas para determinar exactamente la causa, qué es lo que debe evitarse, o al menos explicarse.
En su definición más contundente, estoy de acuerdo en que si tomo algún dato y le aplico un enfoque de fuerza bruta intentando todas las hipótesis nulas posibles, eventualmente encontraré una que pueda ser rechazada con un alfa arbitrario (por ejemplo, 5%) y declare un descubrimiento.
Pero en muchas definiciones de MCP leo algo como "cuanto más pruebas, más probabilidades hay de encontrar", y aunque estoy de acuerdo, no necesariamente lo veo como un problema (o al menos la raíz del problema). Por ejemplo, si muchos investigadores están analizando el mismo fenómeno con los mismos datos disponibles, cada uno probando su propia hipótesis, es más probable que uno llegue a un descubrimiento (que si fuera solo un investigador), eso significa que deberían estar aplicando algún tipo de corrección a su alfa objetivo (por ejemplo, una corrección de Bonferroni )? Supongo que la respuesta es no, pero luego no queda claro por qué un solo investigador que prueba muchas hipótesis debería (nuevamente, está de acuerdo en que se puede abusar del sistema de prueba y que debe haber una corrección para eso).
¿Cuándo se convierte en un problema esta mayor posibilidad de encontrar un descubrimiento (rechazar una hipótesis nula)? Al pensar en las causas, hay algunos factores que me vienen a la mente, pero no estoy seguro de cuál de ellos (u otros que no figuran aquí) está más relacionado con la causa de este problema:
Análisis post hoc : entiendo que las hipótesis deben (preferiblemente) formularse a priori, si no, solo estoy mirando los datos tratando de adivinar qué hipótesis podría encajar bajo el alfa deseado.
Reutilización de datos: ¿desaparece el problema si uso diferentes conjuntos de datos para cada hipótesis que pruebo? La posibilidad de encontrar un descubrimiento aún aumentará a medida que más hipótesis pruebo (incluso en diferentes conjuntos de datos).
Investigadores independientes: reutilizando el ejemplo anterior, ¿el MCP está relacionado con el mismo equipo / esfuerzo de investigación? ¿O se aplica a múltiples investigadores independientes que trabajan en el mismo problema (o incluso en los mismos datos o datos similares)?
Hipótesis independientes: en relación con el tema anterior, ¿surge el problema (o se manifiesta más fuertemente) cuando las hipótesis son independientes? (porque estoy cubriendo más del espacio de búsqueda) o el problema principal es probar hipótesis similares con pequeñas variaciones (por ejemplo, ajustar un parámetro)?
Podría resumir los puntos anteriores, en mi interpretación, como (1) y (2) son formas de reducir el espacio de búsqueda (tomando prestada la terminología de la teoría de optimización) donde estoy haciendo que sea más fácil encontrar un descubrimiento; y (3) y (4) como el uso de más métodos de búsqueda ortogonales que cubren más de este espacio de búsqueda cada vez que se aplican (es decir, cada vez que se prueba una hipótesis). Pero estas son solo algunas de las posibles causas que podría plantear, para ayudar a obtener una respuesta, hay mucho más que me estoy perdiendo, estoy seguro.
Esta pregunta es algo así como una continuación de una anterior que pregunta por qué la comparación múltiple es un problema , planteando un problema similar a la distinción entre el FWER y el FDR (si entiendo la pregunta correctamente). En esta pregunta, no considero que sea un problema (aunque estaría más inclinado a usar FDR), ambas tasas implican que hay un problema al analizar más de una hipótesis (pero no veo la distinción del caso cuando Analizo diferentes problemas no relacionados, encontrando un descubrimiento para cada uno de ellos con un 5% de significancia, lo que significa que cuando haya "resuelto" 100 problemas rechazando hipótesis nulas, 5 de ellos (valor esperado) probablemente estarían equivocados). La mejor respuesta a esa pregunta. implicaba que no había una respuesta definitiva, y tal vez tampoco haya una para esta pregunta, pero aún sería muy útil (al menos para mí) dilucidar lo más posible dónde está la causa del error de MCP procedente de.
( Otra respuesta a la misma pregunta sugirió un documento que explica los beneficios de la perspectiva del modelo multinivel bayesiano sobre la perspectiva clásica. Este es otro enfoque interesante que vale la pena investigar, pero el alcance de esta pregunta es el marco clásico).
Ya hay varias preguntas sobre este problema, muchas de las cuales vale la pena leer (por ejemplo, 1 , 2 , 3 , 4 ) que abordan (desde diferentes perspectivas) los problemas planteados anteriormente, pero aún siento una respuesta más unificada (si eso es posible) falta, de ahí esta pregunta, que espero no disminuya la (ya problemática) SNR .
fuente
Respuestas:
Su intuición es más o menos correcta, pero puede ser útil considerar cómo la comparación múltiple socava los supuestos de la prueba de hipótesis en sí. Cuando realiza una prueba de hipótesis clásica, está generando un valor p, que es una medida de la evidencia contra la hipótesis nula. El valor p se construye de tal manera que los valores más bajos constituyen una mayor evidencia contra el nulo, y se distribuye uniformemente bajo la hipótesis nula . Esto es lo que le permite considerar la hipótesis nula como inverosímil para valores p bajos (en relación con el nivel de significancia).
Suponga que decide probar hipótesis sin hacer ningún ajuste en su método de prueba para tener en cuenta las comparaciones múltiples. Cada valor p para estas pruebas es una variable aleatoria que es uniforme bajo la hipótesis nula para esa prueba. Entonces, si ninguna de las hipótesis alternativas de estas pruebas es verdadera (es decir, todas las hipótesis nulas son verdaderas), tiene (estos valores generalmente no son independientes ) Suponga que elige un nivel de significancia y prueba todas estas hipótesis contra ese nivel. Para hacer esto, observe los valores p ordenados y observe que tiene para algunosN>1 p1,...,pN∼U(0,1) 0<α<1 p(1)<...<p(k)<α<p(k+1)...<p(N) 0⩽k⩽N . Esto le dice que para las primeras pruebas (correspondientes a los valores p ordenados) debe rechazar la hipótesis nula para cada una de esas pruebas.k
¿Cuál es el problema aquí? Bueno, el problema es que aunque los valores p de cada una de las pruebas son uniformes bajo sus respectivas hipótesis nulas, los valores p ordenados no son uniformes. Al elegir los valores p más bajos que están por debajo del nivel de significancia, ya no está mirando variables aleatorias que son uniformes bajo sus respectivas hipótesis nulas. De hecho, para grande , es probable que los valores p más bajos tengan una distribución altamente concentrada cerca de cero, por lo que es muy probable que estén por debajo de su nivel de significancia, aunque (por suposición) todas las hipótesis nulas para su Las pruebas son ciertas.k N
Este fenómeno ocurre independientemente de si los valores p son independientes o no, y por lo tanto ocurre independientemente de si usa los mismos datos o datos diferentes para probar estas hipótesis. El problema de las comparaciones múltiples es que los valores p más bajos de las pruebas tendrán distribuciones nulas marginales que no son uniformes . Ajustes como la corrección de Bonferroni intentan lidiar con esto ajustando los valores p o los niveles de significancia para crear una comparación que explique este fenómeno.N
fuente
Parece suponer que un investigador puede saber cuándo se hace un descubrimiento. No es el caso. Incluso si "encuentra un descubrimiento", nunca puede estar seguro de haberlo hecho (a menos que sea una especie de ser omnisciente), porque, por más abrumador que parezca, lo que discrimina una falsa alarma de un descubrimiento en la ciencia suele ser cierto grado de "confianza" humana en el análisis.
fuente