Estoy totalmente en desacuerdo con el salto de @fcoppens al reconocer la importancia de la corrección de hipótesis múltiples dentro de una sola investigación y afirmar que "Por el mismo razonamiento, lo mismo ocurre si varios equipos realizan estas pruebas".
No hay duda de que cuantos más estudios se realicen y más hipótesis se prueben, más errores de Tipo I ocurrirán. Pero creo que hay una confusión aquí sobre el significado de las tasas de "error familiar" y cómo se aplican en el trabajo científico real.
Primero, recuerde que las correcciones de pruebas múltiples generalmente surgieron en comparaciones post hoc para las cuales no había hipótesis formuladas previamente. No está nada claro que se requieran las mismas correcciones cuando hay un pequeño conjunto predefinido de hipótesis.
Segundo, la "verdad científica" de una publicación individual no depende de la verdad de cada declaración individual dentro de la publicación. Un estudio bien diseñado aborda una hipótesis científica general (en oposición a la estadística) desde muchas perspectivas diferentes, y reúne diferentes tipos de resultados para evaluar la hipótesis científica . Cada resultado individual puede evaluarse mediante una prueba estadística.
Sin embargo, según el argumento de @fcoppens, si incluso una de esas pruebas estadísticas individuales comete un error de Tipo I, eso lleva a una "falsa creencia de 'verdad científica'". Esto simplemente está mal.
La "verdad científica" de la hipótesis científica en una publicación, a diferencia de la validez de una prueba estadística individual, generalmente proviene de una combinación de diferentes tipos de evidencia. La insistencia en múltiples tipos de evidencia hace que la validez de una hipótesis científica sea robusta a los errores individuales que inevitablemente ocurren. Cuando miro hacia atrás en mis más de 50 publicaciones científicas, me sería difícil encontrar alguna que siga siendo tan perfecta en cada detalle como @fcoppens parece insistir. Sin embargo, me cuesta mucho encontrar cualquier lugar donde los científicosLa hipótesis era totalmente errónea. Incompleto, tal vez; hecho irrelevante por desarrollos posteriores en el campo, ciertamente. Pero no está "equivocado" en el contexto del estado del conocimiento científico de la época.
Tercero, el argumento ignora los costos de cometer errores de Tipo II. Un error de tipo II podría cerrar campos enteros de investigación científica prometedora. Si se siguieran las recomendaciones de @fcoppens, las tasas de error de Tipo II aumentarían enormemente, en detrimento de la empresa científica.
Finalmente, la recomendación es imposible de seguir en la práctica. Si analizo un conjunto de datos disponibles públicamente, es posible que no tenga forma de saber si alguien más lo ha usado o con qué propósito. No tengo forma de corregir las pruebas de hipótesis de nadie más. Y como argumento anteriormente, no debería tener que hacerlo.
La corrección de '' prueba múltiple '' es necesaria siempre que 'infle el error tipo I': por ejemplo, si realiza dos pruebas, cada una con un nivel de confianza , y para la primera probamos el nulo contra la alternativa y la segunda hipótesis versus .α=5% H(1)0 H(1)1 H(2)0 H(2)1
Entonces sabemos que el error tipo I para, por ejemplo, la primera hipótesis es la probabilidad de rechazar falsamente y es .H(1)0 α=5%
Si realiza las dos pruebas, entonces la probabilidad de que al menos una de las dos sea falsamente rechazada es igual a 1 menos la probabilidad de que ambas sean aceptadas, entonces que, para es igual a , por lo que el error de tipo uno de tener al menos un falso rechazo casi se ha duplicado.1−(1−α)2 α=5% 9.75%
En la prueba de hipótesis estadísticas, uno solo puede encontrar evidencia estadística para la hipótesis alternativa al rechazar el nulo, rechazar el nulo nos permite concluir que hay evidencia a favor de la hipótesis alternativa. (ver también ¿Qué sigue si no rechazamos la hipótesis nula? ).
Entonces, un falso rechazo de lo nulo nos da evidencia falsa, por lo que una falsa creencia de la "verdad científica". Es por eso que esta inflación tipo I (la casi duplicación del error tipo I) debe evitarse; Los errores de tipo I más altos implican más creencias falsas de que algo está científicamente probado . Por lo tanto, las personas "controlan" el tipo Ierror a nivel familiar.
Si hay un equipo de investigadores que realiza múltiples pruebas, cada vez que rechazan la hipótesis nula, concluyen que han encontrado evidencia estadística de una verdad científica. Sin embargo, por lo anterior, muchos más del de estas conclusiones son una falsa creencia de la "verdad científica".5%
Por el mismo razonamiento, lo mismo ocurre si varios equipos realizan estas pruebas (con los mismos datos).
Obviamente, los hallazgos anteriores solo se mantienen si los equipos trabajamos con los mismos datos . ¿Qué es diferente cuando trabajan en diferentes muestras?
Para explicar esto, tomemos un ejemplo simple y poco realista. Nuestra hipótesis nula es que una población tiene una distribución normal, con conocida y los estados nulos que contra . Tomemos el nivel de significancia .σ H0:μ=0 H1:μ≠0 α=5%
Nuestra muestra ('los datos') es solo una observación, por lo que rechazaremos el valor nulo cuando la observación sea mayor que o menor que .1.96 σ - 1.96 σo 1.96σ −1.96σ
Cometemos un error tipo I con una probabilidad de porque podría ser que rechacemos por casualidad, de hecho, si es verdadero (por lo que la población es normal y ), entonces existe (con verdadero ) una posibilidad de que ]. Entonces, incluso si es cierto, entonces existe la posibilidad de que tengamos mala suerte con los datos. H 0 H 0 μ = 0 H 0 o ∉ [ - 1.96 σ ; 1,96 σ H 05% H0 H0 μ=0 H0 o∉[−1.96σ;1.96σ H0
Entonces, si usamos los mismos datos, podría ser que las conclusiones de las pruebas se basen en una muestra que se extrajo con "mala probabilidad". Con otra muestra, el contexto es diferente.
fuente