Estoy tratando de entender cómo calcular el punto de corte óptimo para una curva ROC (el valor en el que se maximizan la sensibilidad y la especificidad). Estoy usando el conjunto aSAH
de datos del paquete pROC
.
La outcome
variable podría explicarse por dos variables independientes: s100b
y ndka
. Usando la sintaxis del Epi
paquete, he creado dos modelos:
library(pROC)
library(Epi)
ROC(form=outcome~s100b, data=aSAH)
ROC(form=outcome~ndka, data=aSAH)
El resultado se ilustra en los siguientes dos gráficos:
En el primer gráfico ( s100b
), la función dice que el punto de corte óptimo se localiza en el valor correspondiente a lr.eta=0.304
. En el segundo gráfico ( ndka
), el punto de corte óptimo se localiza en el valor correspondiente a lr.eta=0.335
(cuál es el significado de lr.eta
). Mi primera pregunta es:
- ¿Cuál es el correspondiente
s100b
y losndka
valores para loslr.eta
valores indicados (cuál es el punto de corte óptimo en términos des100b
yndka
)?
SEGUNDA PREGUNTA:
Ahora supongamos que creo un modelo teniendo en cuenta ambas variables:
ROC(form=outcome~ndka+s100b, data=aSAH)
El gráfico obtenido es:
Quiero saber cuáles son los valores de ndka
AND s100b
en los que la función maximiza la sensibilidad y la especificidad. En otros términos: ¿cuáles son los valores de ndka
y s100b
en los que tenemos Se = 68.3% y Sp = 76.4% (valores derivados del gráfico)?
Supongo que esta segunda pregunta está relacionada con el análisis multiROC, pero la documentación del Epi
paquete no explica cómo calcular el punto de corte óptimo para ambas variables utilizadas en el modelo.
Mi pregunta parece muy similar a esta pregunta de reasearchGate , que dice en resumen:
La determinación del puntaje de corte que representa un mejor equilibrio entre la sensibilidad y la especificidad de una medida es sencilla. Sin embargo, para el análisis de curva ROC multivariante, he observado que la mayoría de los investigadores se han centrado en algoritmos para determinar la precisión general de una combinación lineal de varios indicadores (variables) en términos de AUC. [...]
Sin embargo, estos métodos no mencionan cómo decidir una combinación de puntajes de corte asociados con los múltiples indicadores que brindan la mejor precisión diagnóstica.
Una posible solución es la propuesta por Shultz en su artículo , pero a partir de este artículo no puedo entender cómo calcular el punto de corte óptimo para una curva ROC multivariada.
Tal vez la solución del Epi
paquete no sea ideal, por lo que cualquier otro enlace útil será apreciado.
lr.eta
ROC
Su primera oración debe decir (como lo demuestran los gráficos) que está buscando dónde se maximiza la suma de sensibilidad y especificidad. Pero, ¿por qué es esto "óptimo"? ¿Un resultado falso positivo tiene la misma importancia que un resultado falso negativo? Ver aquí .
fuente
coords
función delpROC
paquete, como descubrí más adelante. El punto de corte óptimo fue, en mi caso, la mejor combinación de Sens y Spec; Leí la respuesta vinculada, pero no me importan (al menos por ahora) los resultados falsos positivos y falsos negativos, porque (si entendí bien) estoy analizando un grupo de datos recopilados para la investigación.lr.eta
Puede encontrar el umbral en el que la tasa positiva verdadera (tpr) se cruza con la tasa negativa verdadera (tnr), este será el punto en el que la suma de los falsos positivos y falsos negativos es mínima.
fuente