FPR (tasa de falsos positivos) vs FDR (tasa de falsos descubrimientos)

20

La siguiente cita proviene del famoso trabajo de investigación Significación estadística para estudios de genoma amplio de Storey y Tibshirani (2003):

Por ejemplo, una tasa de falsos positivos del 5% significa que, en promedio, el 5% de las características verdaderamente nulas en el estudio se denominarán significativas. Un FDR (tasa de descubrimiento falso) del 5% significa que entre todas las características llamadas significativas, el 5% de ellas son realmente nulas en promedio.

¿Alguien puede explicar qué significa eso usando un simple ejemplo numérico o visual? Me cuesta entender lo que significa. He encontrado varias publicaciones en FDR o FPR solo, pero no he encontrado ninguna donde se haya hecho una comparación específica.

Sería especialmente bueno si alguien experto en esta área pudiera ilustrar situaciones en las que una es mejor que la otra, o ambas son buenas o malas.

李 慕
fuente
3
Noté que le diste una recompensa a @ mkt, Naseer. Si esa respuesta resolvió su pregunta por usted, también puede aceptarla haciendo clic en la marca de verificación a su izquierda debajo del indicador de recompensa.
gung - Restablece a Monica

Respuestas:

29

Voy a explicar esto de diferentes maneras porque me ayudó a entenderlo.

Tomemos un ejemplo específico. Estás haciendo una prueba de una enfermedad en un grupo de personas. Ahora definamos algunos términos. Para cada uno de los siguientes, me refiero a un individuo que ha sido probado:

Verdadero positivo (TP) : tiene la enfermedad, identificada como que tiene la enfermedad

Falso positivo (PF) : no tiene la enfermedad, identificada como que tiene la enfermedad

Verdadero negativo (TN) : no tiene la enfermedad, identificada como no enferma

Falso negativo (FN) : tiene la enfermedad, identificada como no enferma

Visualmente, esto se muestra típicamente usando la matriz de confusión :

ingrese la descripción de la imagen aquí

La tasa de falsos positivos (FPR) es el número de personas que no tienen la enfermedad, pero se identifica que tienen la enfermedad (todos los PF), dividido por el número total de personas que no tienen la enfermedad (incluye todos los PF y TN) .

FPAGSR=FPAGSFPAGS+Tnorte

La tasa de descubrimiento falso (FDR) es el número de personas que no tienen la enfermedad pero que se identifica que tienen la enfermedad (todos los PF), dividido por el número total de personas que se identifican que tienen la enfermedad (incluye todos los PF y TP) )

FreR=FPAGSFPAGS+TPAGS


Entonces, la diferencia está en el denominador, es decir, ¿con qué está comparando el número de falsos positivos?

El FPR le dice la proporción de todas las personas que no tienen la enfermedad que serán identificadas como portadoras de la enfermedad.

El FDR le está informando la proporción de todas las personas identificadas con la enfermedad que no la tienen.

Ambos son, por lo tanto, útiles, distintas medidas de falla. Dependiendo de la situación y las proporciones de TP, FP, TN y FN, puede que le importe más uno que el otro.


Ahora pongamos algunos números a esto. Ha medido 100 personas para la enfermedad y obtiene lo siguiente:

Verdaderos positivos (TP) : 12

Falsos positivos (PF) : 4

Verdaderos negativos (TN) : 76

Falsos negativos (FNs) : 8

Para mostrar esto usando la matriz de confusión:

ingrese la descripción de la imagen aquí

Luego,

FPAGSR=FPAGSFPAGS+Tnorte=4 44 4+76=4 480=0,05=5 5%

FreR=FPAGSFPAGS+TPAGS=4 44 4+12=4 4dieciséis=0.25=25%

En otras palabras,

El FPR le dice que el 5% de las personas de personas que no tenían la enfermedad fueron identificadas con la enfermedad. El FDR le dice que el 25% de las personas que fueron identificadas con la enfermedad en realidad no la tenían.


EDITAR basado en el comentario de @ amoeba (también los números en el ejemplo anterior):

norte

[Nota al margen: Wikipedia señala que aunque el FPR es matemáticamente equivalente a la tasa de error de tipo I, se considera conceptualmente distinto porque uno generalmente se establece a priori mientras que el otro se usa típicamente para medir el rendimiento de una prueba posterior. Esto es importante pero no lo discutiré aquí].


Y para un poco más de integridad:

Obviamente, FPR y FDR no son las únicas métricas relevantes que puede calcular con las cuatro cantidades en la matriz de confusión. De las muchas métricas posibles que pueden ser útiles en diferentes contextos , dos que son relativamente comunes que es probable que encuentre son:

La Tasa Positiva Positiva (TPR) , también conocida como sensibilidad , es la proporción de personas que tienen la enfermedad que se identifican con la enfermedad.

TPAGSR=TPAGSTPAGS+Fnorte

La Tasa Negativa Verdadera (TNR) , también conocida como especificidad , es la proporción de personas que no tienen la enfermedad que se identifican como que no la tienen.

TnorteR=TnorteTnorte+FPAGS

mkt - Restablecer a Monica
fuente
3
+1. Podría tener sentido ajustar el ejemplo numérico para que FPR = 5% porque eso es lo que tendrá si usa p <0.05 como criterio (suponiendo que la prueba tenga el tamaño correcto). O 1% si p <0.01, lo que sea. Señalar esta conexión puede ser útil para algunos lectores.
ameba dice Reinstate Monica
1
@amoeba Gracias, esta es una buena idea. Intentaré hacer eso más tarde.
mkt - Restablecer Mónica
2

Debe examinar la tabla en https://en.wikipedia.org/wiki/Confusion_matrix . Tenga en cuenta que FPR se coloca verticalmente mientras que FDR es horizontal.

  • FP ocurre si su hipótesis nula es verdadera pero la rechaza
  • FD ocurre si predices algo significativo pero no deberías
SmallChess
fuente
Lo sé, pero estoy especialmente interesado en la comparación, como si pudieras ayudar a explicar ese concepto con algunos números y visualización para apoyar tus números, lo que sería muy interesante.
李 慕