¿Cuál es la causa del problema de comparaciones múltiples?

Entiendo la intuición detrás del MCP, pero tengo problemas para determinar exactamente la causa, qué es lo que debe evitarse, o al menos explicarse.

En su definición más contundente, estoy de acuerdo en que si tomo algún dato y le aplico un enfoque de fuerza bruta intentando todas las hipótesis nulas posibles, eventualmente encontraré una que pueda ser rechazada con un alfa arbitrario (por ejemplo, 5%) y declare un descubrimiento.

Pero en muchas definiciones de MCP leo algo como "cuanto más pruebas, más probabilidades hay de encontrar", y aunque estoy de acuerdo, no necesariamente lo veo como un problema (o al menos la raíz del problema). Por ejemplo, si muchos investigadores están analizando el mismo fenómeno con los mismos datos disponibles, cada uno probando su propia hipótesis, es más probable que uno llegue a un descubrimiento (que si fuera solo un investigador), eso significa que deberían estar aplicando algún tipo de corrección a su alfa objetivo (por ejemplo, una corrección de Bonferroni )? Supongo que la respuesta es no, pero luego no queda claro por qué un solo investigador que prueba muchas hipótesis debería (nuevamente, está de acuerdo en que se puede abusar del sistema de prueba y que debe haber una corrección para eso).

¿Cuándo se convierte en un problema esta mayor posibilidad de encontrar un descubrimiento (rechazar una hipótesis nula)? Al pensar en las causas, hay algunos factores que me vienen a la mente, pero no estoy seguro de cuál de ellos (u otros que no figuran aquí) está más relacionado con la causa de este problema:

Análisis post hoc : entiendo que las hipótesis deben (preferiblemente) formularse a priori, si no, solo estoy mirando los datos tratando de adivinar qué hipótesis podría encajar bajo el alfa deseado.
Reutilización de datos: ¿desaparece el problema si uso diferentes conjuntos de datos para cada hipótesis que pruebo? La posibilidad de encontrar un descubrimiento aún aumentará a medida que más hipótesis pruebo (incluso en diferentes conjuntos de datos).
Investigadores independientes: reutilizando el ejemplo anterior, ¿el MCP está relacionado con el mismo equipo / esfuerzo de investigación? ¿O se aplica a múltiples investigadores independientes que trabajan en el mismo problema (o incluso en los mismos datos o datos similares)?
Hipótesis independientes: en relación con el tema anterior, ¿surge el problema (o se manifiesta más fuertemente) cuando las hipótesis son independientes? (porque estoy cubriendo más del espacio de búsqueda) o el problema principal es probar hipótesis similares con pequeñas variaciones (por ejemplo, ajustar un parámetro)?

Podría resumir los puntos anteriores, en mi interpretación, como (1) y (2) son formas de reducir el espacio de búsqueda (tomando prestada la terminología de la teoría de optimización) donde estoy haciendo que sea más fácil encontrar un descubrimiento; y (3) y (4) como el uso de más métodos de búsqueda ortogonales que cubren más de este espacio de búsqueda cada vez que se aplican (es decir, cada vez que se prueba una hipótesis). Pero estas son solo algunas de las posibles causas que podría plantear, para ayudar a obtener una respuesta, hay mucho más que me estoy perdiendo, estoy seguro.

Esta pregunta es algo así como una continuación de una anterior que pregunta por qué la comparación múltiple es un problema , planteando un problema similar a la distinción entre el FWER y el FDR (si entiendo la pregunta correctamente). En esta pregunta, no considero que sea un problema (aunque estaría más inclinado a usar FDR), ambas tasas implican que hay un problema al analizar más de una hipótesis (pero no veo la distinción del caso cuando Analizo diferentes problemas no relacionados, encontrando un descubrimiento para cada uno de ellos con un 5% de significancia, lo que significa que cuando haya "resuelto" 100 problemas rechazando hipótesis nulas, 5 de ellos (valor esperado) probablemente estarían equivocados). La mejor respuesta a esa pregunta. implicaba que no había una respuesta definitiva, y tal vez tampoco haya una para esta pregunta, pero aún sería muy útil (al menos para mí) dilucidar lo más posible dónde está la causa del error de MCP procedente de.

( Otra respuesta a la misma pregunta sugirió un documento que explica los beneficios de la perspectiva del modelo multinivel bayesiano sobre la perspectiva clásica. Este es otro enfoque interesante que vale la pena investigar, pero el alcance de esta pregunta es el marco clásico).

Ya hay varias preguntas sobre este problema, muchas de las cuales vale la pena leer (por ejemplo, 1 , 2 , 3 , 4 ) que abordan (desde diferentes perspectivas) los problemas planteados anteriormente, pero aún siento una respuesta más unificada (si eso es posible) falta, de ahí esta pregunta, que espero no disminuya la (ya problemática) SNR .

hypothesis-testing multiple-comparisons Paul Richards
fuente

"... cuanto más pruebas, más probable es que encuentres" únicamente por casualidad . FTFY . :) Es decir, "únicamente por casualidad" en lugar de "debido a una verdadera asociación".

Alexis

Estoy de acuerdo, se aplica no solo a usted, sino a los demás combinados. Sin embargo, no debes dejar que eso te desanime haciendo análisis de datos exploratorios que luego pueden seguirse de manera rigurosa e individual con otros datos obtenidos de forma independiente.

Robert Jones

Consulte ncbi.nlm.nih.gov/pmc/articles/PMC3659368 para ver un ejemplo famoso, importante y dramático.

whuber

Lo que estoy señalando son varias instancias de la palabra "descubrimiento" en la pregunta. Si vuelve a leer la pregunta reemplazando cada "descubrimiento" por "descubrimiento falso", puede ayudarlo a comprender la naturaleza del problema con mayor claridad.

Russ Lenth

Parece que dado un conjunto de datos, cuanto más pequeño es el conjunto de datos y más investigadores están trabajando en él, más probable es que se encuentre alguna correlación espuria en el conjunto de datos debido al azar. Se vuelve similar a un gran grupo de personas que intentan "encontrar" números ganadores de boletos de lotería. Una hipótesis encontrada en un conjunto de datos necesita ser verificada independientemente en otro conjunto de datos para reducir las posibilidades de que el descubrimiento sea falso; pero depende del tamaño del conjunto de datos, cuántas investigaciones están trabajando en él y cuánto puede confiar en sus procesos de higiene de datos.

rinspy

Respuestas:

Su intuición es más o menos correcta, pero puede ser útil considerar cómo la comparación múltiple socava los supuestos de la prueba de hipótesis en sí. Cuando realiza una prueba de hipótesis clásica, está generando un valor p, que es una medida de la evidencia contra la hipótesis nula. El valor p se construye de tal manera que los valores más bajos constituyen una mayor evidencia contra el nulo, y se distribuye uniformemente bajo la hipótesis nula . Esto es lo que le permite considerar la hipótesis nula como inverosímil para valores p bajos (en relación con el nivel de significancia).

Suponga que decide probar hipótesis sin hacer ningún ajuste en su método de prueba para tener en cuenta las comparaciones múltiples. Cada valor p para estas pruebas es una variable aleatoria que es uniforme bajo la hipótesis nula para esa prueba. Entonces, si ninguna de las hipótesis alternativas de estas pruebas es verdadera (es decir, todas las hipótesis nulas son verdaderas), tiene (estos valores generalmente no son independientes ) Suponga que elige un nivel de significancia y prueba todas estas hipótesis contra ese nivel. Para hacer esto, observe los valores p ordenados y observe que tiene para algunos $N > 1$ $p_1, ..., p_N \sim \text{U}(0, 1)$ $0 < \alpha < 1$ $p_{(1)} < ... < p_{(k)} < \alpha < p_{(k+1)} ... < p_{(N)}$ $0 \leqslant k \leqslant N$ . Esto le dice que para las primeras pruebas (correspondientes a los valores p ordenados) debe rechazar la hipótesis nula para cada una de esas pruebas. $k$

¿Cuál es el problema aquí? Bueno, el problema es que aunque los valores p de cada una de las pruebas son uniformes bajo sus respectivas hipótesis nulas, los valores p ordenados no son uniformes. Al elegir los valores p más bajos que están por debajo del nivel de significancia, ya no está mirando variables aleatorias que son uniformes bajo sus respectivas hipótesis nulas. De hecho, para grande , es probable que los valores p más bajos tengan una distribución altamente concentrada cerca de cero, por lo que es muy probable que estén por debajo de su nivel de significancia, aunque (por suposición) todas las hipótesis nulas para su Las pruebas son ciertas. $k$ $N$

Este fenómeno ocurre independientemente de si los valores p son independientes o no, y por lo tanto ocurre independientemente de si usa los mismos datos o datos diferentes para probar estas hipótesis. El problema de las comparaciones múltiples es que los valores p más bajos de las pruebas tendrán distribuciones nulas marginales que no son uniformes . Ajustes como la corrección de Bonferroni intentan lidiar con esto ajustando los valores p o los niveles de significancia para crear una comparación que explique este fenómeno. $N$

Ben - Restablece a Monica
fuente

Entonces, si tomamos el ejemplo dado en el OP de un investigador que realiza múltiples pruebas en un conjunto de datos frente a muchos investigadores individuales que realizan una prueba cada uno en el mismo conjunto de datos, de modo que el conjunto de valores p para el primero sea el mismo que la combinación de los valores p individuales para este último, entonces ¿qué? ¿El mismo valor p para una de las pruebas es significativo en el último caso, pero no significativo después del ajuste para MCP en el primero? Entonces, cuando se hacen pruebas múltiples, ¿es mejor escribir un trabajo colaborativo que involucre a tantos investigadores como pruebas planificadas? :)

Confundido

Independientemente de si escribe un documento sobre 10 pruebas o diez documentos sobre 1 prueba, el problema es el mismo: cuando observa comparaciones múltiples y selecciona las pruebas con valores p bajos, entonces condicional a esa elección, el p- los valores ya no son uniformes. Si diez investigadores escriben diez documentos individuales que informan los resultados de las pruebas individuales, y usted saca el que tiene el valor p más bajo (por ejemplo, para una presentación), porque tiene el valor p más bajo , entonces condicional a esa elección, el valor p Ya no es uniforme.

Ben - Restablece a Monica el

Lo siento, pero todavía no estoy seguro de seguir el argumento. Digamos que el mismo conjunto de datos se prueba al generarse a partir de 10 distribuciones diferentes. Y digamos que para 3 de estas pruebas el valor p está por debajo de un umbral alfa. Entonces, cuando estas pruebas se realizan por separado por investigadores individuales, los que probaron contra estas 3 distribuciones pueden rechazar el nulo de datos provenientes de la distribución particular que probó, pero si un investigador realiza las pruebas, entonces no puede rechazar las 3 ¿hipótesis nula?

Confundido

Es muy posible que cada investigador individual (sin tener conocimiento de las otras pruebas) realice una prueba de hipótesis sin ningún ajuste, en comparación con un nivel de significación estándar. Sin embargo, si una persona viene y lee todos esos documentos, entonces deben tener en cuenta la evidencia agregada de todos ellos. Eso significa que si seleccionan el papel con el valor p más bajo, no deberían evaluar ese valor p aislado de los demás. Hacerlo los sesgaría hacia la aceptación de una hipótesis alternativa falsa.

Ben - Restablece a Monica el

(Esto es realmente parte de un problema estadístico más amplio: si el objeto de inferencia que usa se ve afectado por sus datos, entonces el uso adecuado de ese objeto de inferencia debe tener en cuenta su dependencia de los datos).

Ben - Restablezca a Monica

Parece suponer que un investigador puede saber cuándo se hace un descubrimiento. No es el caso. Incluso si "encuentra un descubrimiento", nunca puede estar seguro de haberlo hecho (a menos que sea una especie de ser omnisciente), porque, por más abrumador que parezca, lo que discrimina una falsa alarma de un descubrimiento en la ciencia suele ser cierto grado de "confianza" humana en el análisis.

marsarius
fuente