Como la pregunta aún no ha sido respondida, aquí está mi 2ct:
creo que aquí hay dos temas diferentes mezclados en esta pregunta:
¿Cómo puedo calcular la sensibilidad y la especificidad (o medidas análogas) de una prueba de diagnóstico continuo para predecir un resultado continuo (por ejemplo, presión arterial) sin dicotomizar el resultado?
Supongo que desea medir el rendimiento del modelo. El modelo predice el resultado continuo (métrico) a partir de algún tipo de entrada (también resulta métrico en su ejemplo, pero eso realmente no importa aquí). Este es un escenario de regresión, no una clasificación. Por lo tanto, es mejor que busque medidas de rendimiento para los modelos de regresión, la sensibilidad y la especificidad no son lo que está buscando *.
Algunos problemas de regresión tienen una agrupación "natural" en presencia y ausencia de algo, lo que da un enlace a la clasificación. Para eso puede tener una distribución bimodal: muchos casos con ausencia, y una distribución métrica de valores para casos de presencia. Por ejemplo, piense en una sustancia que contamine algún producto. Muchas de las muestras de productos no contendrán el contaminante, pero para aquellos que sí lo hacen, se observa un rango de concentraciones.
Sin embargo, este no es el caso para su ejemplo de presión arterial (la ausencia de presión arterial no es un concepto sensato aquí). Incluso supongo que las presiones sanguíneas vienen en una distribución unimodal. Todo eso apunta a un problema de regresión sin un vínculo cercano a la clasificación.
* Con la advertencia de que ambas palabras se usan en química analítica para la regresión (calibración), pero con un significado diferente: allí, la sensibilidad es la pendiente de la función de calibración / regresión, y específica a veces significa que el método es completamente selectivo , que es insensible a otras sustancias distintas al analito, y no se producen sensibilidades cruzadas.
AD McNaught und A. Wilkinson, eds .: Compendio de Terminología Química (el "Libro de Oro"). Blackwell Scientific, 1997. ISBN: 0-9678550-9-8. DOI: doi: 10.1351 / goldbook. URL: http://goldbook.iupac.org/ .
Análogos de sensibilidad y especificidad para resultados continuos
Por otro lado, si la naturaleza subyacente del problema es una clasificación, sin embargo, puede encontrarse describiéndolo mejor mediante una regresión:
- La regresión describe un grado de pertenencia a las clases (como en conjuntos difusos).
- la probabilidad de modelos de regresión (posterior) de pertenecer a las clases (como en la regresión logística )
- sus casos pueden describirse como mezclas de las clases puras (muy cerca de la regresión "normal", el ejemplo de contaminación anterior)
Para estos casos, tiene sentido extender los conceptos detrás de la sensibilidad y la especificidad a los "clasificadores de resultados continuos". La idea básica es ponderar cada caso de acuerdo con su grado de pertenencia a la clase en cuestión. Para la sensibilidad y especificidad que se refiere a la etiqueta de referencia, para los valores predictivos de las membresías de clase previstas. Resulta que esto lleva a un vínculo muy estrecho con las medidas de rendimiento de tipo regresión.
Recientemente describimos esto en
C. Beleites, R. Salzer y V. Sergo:
Validación de modelos de clasificación blanda utilizando membresías de clase parcial: un concepto extendido de sensibilidad y compañía aplicado a la clasificación de la
quimioterapia de tejidos de astrocitoma . Intell. Laboratorio. Syst., 122 (2013), 12 - 22.
El enlace apunta a la página de inicio del paquete R que implementa las medidas de rendimiento propuestas.
Nuevamente, el ejemplo de presión arterial en mi humilde opinión no se describe adecuadamente como un problema de clasificación. Sin embargo, es posible que aún desee leer el documento: creo que la formulación de los valores de referencia dejará en claro que la presión arterial no se describe de manera sensata de una manera adecuada para la clasificación.
(Si formula un grado continuo de "presión arterial alta", ese sería en sí mismo un modelo, y uno diferente del problema que describe).
Solo eché un vistazo rápido al artículo que vinculó, pero si entendí correctamente, los autores usan umbrales (dicotomizar) para ambas estrategias de modelado: para la predicción continua se procesa aún más: se calcula un intervalo de predicción y se compara con algún umbral. Al final, tienen una predicción dicotómica y generan el ROC variando la especificación para el intervalo.
Cuando especifique que desea evitar esto, el documento no parece ser demasiado relevante.
Intentar hacer esto con variables continuas expondrá los problemas graves con medidas de orden de tiempo hacia atrás incluso en el caso binario (es decir, prediciendo X a partir de Y en general).
fuente
R
Hmisc
y losrms
paquetes manejan esto. EnHmisc
ver larcorr.cens
función.En términos generales, la sensibilidad significa la capacidad de responder a algo si está presente, y la especificidad significa la capacidad de suprimir la respuesta cuando está ausente. Para variables continuas, la sensibilidad corresponde a la pendiente de la regresión de las medidas obtenidas sobre los valores verdaderos de la variable que se está midiendo, y la especificidad corresponde al error estándar de medición (es decir, la desviación estándar de las medidas obtenidas cuando se mide la cantidad no varía)
EDITAR, respondiendo a los comentarios de Frank Harrell y Cbeleites. Estaba tratando de dar análogos conceptuales de sensibilidad y especificidad. Para las variables continuas, la idea básica de sensibilidad es que si dos objetos (o el mismo objeto en diferentes momentos o bajo diferentes condiciones, etc.) difieren en la variable que estamos tratando de medir, entonces nuestras medidas obtenidas también deberían diferir, con mayor diferencias que conducen a mayores diferencias medidas.
La regresión de cualquier variable, digamosY , en cualquier otro, decir X , es simplemente el valor esperado condicional, EY|X , tratado en función de X . La sensibilidad deY a X es la pendiente de esa función, es decir, su derivada con respecto a X - evaluado a cualquier valor de X son de interés, y posiblemente promediados con pesos que reflejan la importancia relativa o frecuencia de ocurrencia de diferentes X -valores.
La idea básica de especificidad es la inversa de la sensibilidad: siY tiene una alta especificidad y no hay diferencias verdaderas en X entonces todos nuestros medidos Y -los valores deben ser los mismos, independientemente de las diferencias que pueda haber entre los objetos en variables que no sean X ; Y No debería responder a esas diferencias. CuandoX es constante, mayor variabilidad entre los Y -valores implica menor especificidad. La desviación estándar condicional, es decir, la desviación estándar deY|X , nuevamente tratado como una función de X - es una medida inversa de especificidad. La relación de la pendiente condicional sobre la SD condicional es una relación de señal a ruido, y su cuadrado se conoce en psicometría como la función de información.
fuente