En http://surveyanalysis.org/wiki/Multiple_Comparisons_(Post_Hoc_Testing) dice
Por ejemplo, si tenemos un valor p de 0.05 y concluimos que es significativo, la probabilidad de un descubrimiento falso es, por definición, 0.05.
Mi pregunta: siempre pensé que el descubrimiento falso es un error de Tipo I, que es igual a los niveles de significancia elegidos en la mayoría de las pruebas. El valor P es el valor calculado a partir de la muestra. De hecho, Wikipedia dice
El valor p no debe confundirse con el nivel de significancia en el enfoque de Neyman-Pearson o la tasa de error Tipo I [tasa de falsos positivos] "
Entonces, ¿por qué el artículo vinculado afirma que la tasa de error Tipo I viene dada por el valor p?
Respuestas:
Su tasa de descubrimiento falso no solo depende del umbral del valor p, sino también de la verdad. De hecho, si su hipótesis nula es realmente incorrecta, es imposible que haga un descubrimiento falso.
Tal vez sea útil pensarlo así: el umbral del valor p es la probabilidad de hacer descubrimientos falsos cuando no hay descubrimientos verdaderos que hacer (o para decirlo de otra manera, si la hipótesis nula es verdadera).
Básicamente,
Tipo 1 Error Rate = "Probabilidad de rechazar el valor nulo si es verdadero" = umbral de valor p
y
Tipo 1 Error Rate = False Discovery Rate SI la hipótesis nula es verdadera
es correcto, pero tenga en cuenta el condicional en el verdadero nulo. La tasa de descubrimiento falso no tiene este condicional y, por lo tanto, depende de la verdad desconocida de cuántas de sus hipótesis nulas son realmente correctas o no.
También vale la pena considerar que cuando controlas la tasa de descubrimiento falso utilizando un procedimiento como Benjamini-Hochberg, nunca puedes estimar la tasa de descubrimiento realmente falsa, sino que la controlas estimando un límite superior. Para hacer más, en realidad necesitaría poder detectar que la hipótesis nula es verdadera usando estadísticas, cuando solo puede detectar violaciones de cierta magnitud (dependiendo de la potencia de su prueba).
fuente
La diferencia entre los valores de P y la tasa de falsos positivos (o tasa de falso descubrimiento) se explica, claramente espero, en http://rsos.royalsocietypublishing.org/content/1/3/140216
Aunque ese documento usa el término False Discovery Rate, ahora prefiero False Positive Rate, porque el primer término a menudo se usa en el contexto de correcciones para comparaciones múltiples. Ese es un problema diferente. El documento señala que para una sola prueba imparcial, la tasa de falsos positivos es mucho más alta que el valor P en casi todas las circunstancias.
También hay una descripción cualitativa de la lógica subyacente en https://aeon.co/essays/it-s-time-for-science-to-abandon-the-term-statistically-significant
fuente