Límite de error familiar: ¿Reutilizar conjuntos de datos en diferentes estudios de preguntas independientes conduce a múltiples problemas de prueba?

Si un equipo de investigadores realiza pruebas múltiples (hipótesis) en un conjunto de datos dado, existe un volumen de literatura que afirma que deberían usar alguna forma de corrección para pruebas múltiples (Bonferroni, etc.), incluso si las pruebas son independientes. Mi pregunta es esta: ¿se aplica esta misma lógica a múltiples equipos que prueban hipótesis en el mismo conjunto de datos? Dicho de otra manera: ¿cuál es la barrera para los cálculos de errores familiares? ¿Deberían los investigadores limitarse a reutilizar conjuntos de datos solo para exploración?

hypothesis-testing multiple-comparisons toypajme
fuente

Respuestas:

Estoy totalmente en desacuerdo con el salto de @fcoppens al reconocer la importancia de la corrección de hipótesis múltiples dentro de una sola investigación y afirmar que "Por el mismo razonamiento, lo mismo ocurre si varios equipos realizan estas pruebas".

No hay duda de que cuantos más estudios se realicen y más hipótesis se prueben, más errores de Tipo I ocurrirán. Pero creo que hay una confusión aquí sobre el significado de las tasas de "error familiar" y cómo se aplican en el trabajo científico real.

Primero, recuerde que las correcciones de pruebas múltiples generalmente surgieron en comparaciones post hoc para las cuales no había hipótesis formuladas previamente. No está nada claro que se requieran las mismas correcciones cuando hay un pequeño conjunto predefinido de hipótesis.

Segundo, la "verdad científica" de una publicación individual no depende de la verdad de cada declaración individual dentro de la publicación. Un estudio bien diseñado aborda una hipótesis científica general (en oposición a la estadística) desde muchas perspectivas diferentes, y reúne diferentes tipos de resultados para evaluar la hipótesis científica . Cada resultado individual puede evaluarse mediante una prueba estadística.

Sin embargo, según el argumento de @fcoppens, si incluso una de esas pruebas estadísticas individuales comete un error de Tipo I, eso lleva a una "falsa creencia de 'verdad científica'". Esto simplemente está mal.

La "verdad científica" de la hipótesis científica en una publicación, a diferencia de la validez de una prueba estadística individual, generalmente proviene de una combinación de diferentes tipos de evidencia. La insistencia en múltiples tipos de evidencia hace que la validez de una hipótesis científica sea robusta a los errores individuales que inevitablemente ocurren. Cuando miro hacia atrás en mis más de 50 publicaciones científicas, me sería difícil encontrar alguna que siga siendo tan perfecta en cada detalle como @fcoppens parece insistir. Sin embargo, me cuesta mucho encontrar cualquier lugar donde los científicosLa hipótesis era totalmente errónea. Incompleto, tal vez; hecho irrelevante por desarrollos posteriores en el campo, ciertamente. Pero no está "equivocado" en el contexto del estado del conocimiento científico de la época.

Tercero, el argumento ignora los costos de cometer errores de Tipo II. Un error de tipo II podría cerrar campos enteros de investigación científica prometedora. Si se siguieran las recomendaciones de @fcoppens, las tasas de error de Tipo II aumentarían enormemente, en detrimento de la empresa científica.

Finalmente, la recomendación es imposible de seguir en la práctica. Si analizo un conjunto de datos disponibles públicamente, es posible que no tenga forma de saber si alguien más lo ha usado o con qué propósito. No tengo forma de corregir las pruebas de hipótesis de nadie más. Y como argumento anteriormente, no debería tener que hacerlo.

EdM
fuente

Le di una recompensa a la pregunta porque quería presentarla "por adelantado". La razón por la que quería hacer eso fue porque creo que no recibe suficiente atención y eso y eso, aparentemente, como lo experimenté con mi respuesta, ya no hay 'discusión' al respecto. Como se muestra, puede ser una discusión interesante, por lo que obtienes un (+1)

@fcoppens gracias por traer este "por adelantado"

EdM

Desde esta publicación, me encontré con un gran artículo que también aborda este tema de Salzberg llamado "Sobre la comparación de clasificadores: trampas para evitar y un enfoque recomendado" ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing. pdf ). Agradezco la discusión. Este tipo de preguntas plantea la división entre estadísticas y aprendizaje automático / otros campos aplicados que se discutió en esta publicación: stats.stackexchange.com/questions/1194/… ....

toypajme

Un artículo de Breiman también aborda este tema: projecteuclid.org/euclid.ss/1009213726 . Espero que estos documentos puedan servir de referencia fácil para quienes estén interesados en la investigación actual y las discusiones publicadas sobre este tema.

toypajme

También está el siguiente documento " Sobre la generación y propiedad de alfa en estudios médicos ". Es claramente un tema controvertido. Uno de los pocos casos en los que la respuesta es clara es con las declaraciones de la etiqueta reguladora para productos farmacéuticos, donde hay más o menos un para un estudio médico. Una vez que ingresamos a las publicaciones científicas, no hay nadie mejor que nadie para hacer cumplir tal cosa.

α = 0.05

$\alpha=0.05$

Björn

La corrección de '' prueba múltiple '' es necesaria siempre que 'infle el error tipo I': por ejemplo, si realiza dos pruebas, cada una con un nivel de confianza , y para la primera probamos el nulo contra la alternativa y la segunda hipótesis versus . $\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

Entonces sabemos que el error tipo I para, por ejemplo, la primera hipótesis es la probabilidad de rechazar falsamente y es . $H_0^{(1)}$ $\alpha=5\%$

Si realiza las dos pruebas, entonces la probabilidad de que al menos una de las dos sea falsamente rechazada es igual a 1 menos la probabilidad de que ambas sean aceptadas, entonces que, para es igual a , por lo que el error de tipo uno de tener al menos un falso rechazo casi se ha duplicado. $1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

En la prueba de hipótesis estadísticas, uno solo puede encontrar evidencia estadística para la hipótesis alternativa al rechazar el nulo, rechazar el nulo nos permite concluir que hay evidencia a favor de la hipótesis alternativa. (ver también ¿Qué sigue si no rechazamos la hipótesis nula? ).

Entonces, un falso rechazo de lo nulo nos da evidencia falsa, por lo que una falsa creencia de la "verdad científica". Es por eso que esta inflación tipo I (la casi duplicación del error tipo I) debe evitarse; Los errores de tipo I más altos implican más creencias falsas de que algo está científicamente probado . Por lo tanto, las personas "controlan" el tipo Ierror a nivel familiar.

Si hay un equipo de investigadores que realiza múltiples pruebas, cada vez que rechazan la hipótesis nula, concluyen que han encontrado evidencia estadística de una verdad científica. Sin embargo, por lo anterior, muchos más del de estas conclusiones son una falsa creencia de la "verdad científica". $5\%$

Por el mismo razonamiento, lo mismo ocurre si varios equipos realizan estas pruebas (con los mismos datos).

Obviamente, los hallazgos anteriores solo se mantienen si los equipos trabajamos con los mismos datos . ¿Qué es diferente cuando trabajan en diferentes muestras?

Para explicar esto, tomemos un ejemplo simple y poco realista. Nuestra hipótesis nula es que una población tiene una distribución normal, con conocida y los estados nulos que contra . Tomemos el nivel de significancia . $\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

Nuestra muestra ('los datos') es solo una observación, por lo que rechazaremos el valor nulo cuando la observación sea mayor que o menor que . $o$ $1.96\sigma$ $-1.96\sigma$

Cometemos un error tipo I con una probabilidad de porque podría ser que rechacemos por casualidad, de hecho, si es verdadero (por lo que la población es normal y ), entonces existe (con verdadero ) una posibilidad de que ]. Entonces, incluso si es cierto, entonces existe la posibilidad de que tengamos mala suerte con los datos. $5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Entonces, si usamos los mismos datos, podría ser que las conclusiones de las pruebas se basen en una muestra que se extrajo con "mala probabilidad". Con otra muestra, el contexto es diferente.

Comunidad
fuente

No soy fanático de usar "pruebas" con respecto a la evidencia científica.

Alexis

@Alexis: ciertamente es porque el inglés no es mi lengua materna, pero pensé que 'evidencia' y 'prueba' son más o más sinónimos, pero ese no parece ser el caso.

La "prueba" formal, en mi opinión, pertenece a las matemáticas. O, menos formalmente, pertenece a la jurisprudencia. Para mí, la prueba no pertenece a la ciencia, porque eso implica el fin de la investigación y el comienzo del dogma, y la ciencia se trata fundamentalmente de la investigación. En inglés (y en EE. UU.), Por ejemplo, tenemos un juego retórico en el que los individuos en contra de la evolución dirán "la evolución biológica es solo una teoría y no ha sido científicamente probada ". Por supuesto, el truco es lograr que los oyentes olviden que la ciencia nunca prueba, solo proporciona evidencia.

Alexis