Ajuste para covariables en el análisis de curva ROC

Esta pregunta trata sobre la estimación de puntajes de corte en un cuestionario de detección multidimensional para predecir un punto final binario, en presencia de escalas correlacionadas.

Me preguntaron sobre el interés de controlar las puntuaciones secundarias asociadas al diseñar puntajes de corte en cada dimensión de una escala de medición (rasgos de personalidad) que podrían usarse para la detección del alcoholismo. Es decir, en este caso particular, la persona no estaba interesada en ajustar las covariables externas (predictores), lo que lleva a un área (parcial) bajo la curva ROC ajustada por covariables, por ejemplo (1-2), pero esencialmente en otras puntuaciones del mismo cuestionario porque se correlacionan entre sí (por ejemplo, "impulsividad" con "búsqueda de sensaciones"). Equivale a construir un GLM que incluya en el lado izquierdo el puntaje de interés (para el cual buscamos un punto de corte) y otro puntaje calculado a partir del mismo cuestionario, mientras que en el lado derecho el resultado puede ser el estado de consumo.

Para aclarar (por solicitud de @robin), supongamos que tenemos puntajes, digamos (por ejemplo, ansiedad, impulsividad, neuroticismo, búsqueda de sensaciones), y queremos encontrar un valor de corte (es decir, "caso positivo" si , "caso negativo" de lo contrario) para cada uno de ellos. Por lo general, ajustamos otros factores de riesgo como el sexo o la edad cuando diseñamos dicho límite (mediante el análisis de la curva ROC). Ahora, ¿qué pasa con el ajuste de la impulsividad (IMP) en cuanto a género, edad y búsqueda de sensaciones (SS) ya que se sabe que SS se correlaciona con IMP? En otras palabras, tendríamos un valor de corte para IMP donde se eliminan los efectos de la edad, el sexo y el nivel de ansiedad. $j=4$ $x_j$ $t_j$ $x_j>t_j$

Además de decir que un límite debe ser lo más simple posible, mi respuesta fue

Con respecto a las covariables, recomendaría estimar las AUC con y sin ajuste, solo para ver si aumenta el rendimiento predictivo. Aquí, sus covariables son simplemente otras puntuaciones secundarias definidas a partir del mismo instrumento de medición y nunca enfrenté tal situación (generalmente, me ajusto a factores de riesgo conocidos, como Edad o Género). [...] Además, dado que está interesado en cuestiones de pronóstico (es decir, la eficacia de la evaluación del cuestionario), también puede estar interesado en estimar el valor predictivo positivo (VPP, probabilidad de pacientes con resultados positivos de prueba que se clasifican correctamente) proporcionados puede clasificar las asignaturas como "positivas" o "negativas" en función de sus puntuaciones en su cuestionario. Nota, sin embargo,

¿Tiene una comprensión más profunda de esta situación particular, con un enlace a documentos relevantes cuando sea posible?

Referencias

Janes, H y Pepe, MS (2008). Ajuste de covariables en estudios de marcadores de diagnóstico, detección o pronóstico: un concepto antiguo en un entorno nuevo . American Journal of Epidemiology , 168 (1): 89-97.
Janes, H y Pepe, MS (2008). Acomodación de covariables en el análisis ROC . UW Biostatistics Working Paper Series , Paper 322.

epidemiology roc chl
fuente

No soy un experto, pero la frase "controlar las puntuaciones secundarias asociadas al diseñar puntajes de corte en cada dimensión de una escala de medición" es un poco esotérica. ¿Me puede dar una línea más de explicación (de lo contrario, me resultó difícil entender la pregunta)?

robin girard

@robin Sí, básicamente quise decir: tenemos puntuaciones (por ejemplo, ansiedad, impulsividad, neuroticismo, búsqueda de sensaciones) y queremos encontrar un valor de corte (es decir, "caso positivo" si , "caso negativo "de lo contrario) para cada uno de ellos. Por lo general, ajustamos otros factores de riesgo como el sexo o la edad cuando diseñamos dicho límite (mediante el análisis de la curva ROC). Ahora, ¿qué pasa con el ajuste de la impulsividad (IMP) en cuanto a género, edad y búsqueda de sensaciones (SS) ya que se sabe que SS se correlaciona con IMP? En otras palabras, tendríamos un valor de corte para IMP donde se eliminan los efectos de la edad, el sexo y el nivel de ansiedad.

j = 4

$j=4$

t_{j}

$t_j$

x_{j} > t_{j}

$x_j>t_j$

chl

Si el objetivo final es predecir un valor binario, dadas las respuestas [correlacionadas] a las preguntas de la encuesta, esto se parece mucho a un problema de clasificación binaria estándar. ¿Sería apropiado pensarlo de esta manera? ¿O es muy importante encontrar "valores de corte" (de los que no sé nada)?

DavidR

@DavidR Bueno, la idea es decidir un valor de corte (léase, "sujeto en riesgo por encima de un cierto valor"), que viene con muchas advertencias desde una perspectiva estadística, pero la mayoría de los médicos están acostumbrados o prefieren trabajar de esta manera. (Perdón por no haber notado tu comentario antes!)

chl

Respuestas:

La forma en que has imaginado el análisis no es realmente la forma en que te sugiero que comiences a pensar en ello. En primer lugar, es fácil demostrar que si se deben usar los límites, los límites no se aplican a las características individuales sino a la probabilidad general pronosticada. El límite óptimo para una sola covariable depende de todos los niveles de las otras covariables; No puede ser constante. En segundo lugar, las curvas ROC no juegan ningún papel en el cumplimiento del objetivo de tomar decisiones óptimas para un tema individual .

Para manejar escalas correlacionadas, hay muchas técnicas de reducción de datos que pueden ayudar. Uno de ellos es un análisis de redundancia formal en el que cada predictor se predice de forma no lineal a partir de todos los demás predictores, a su vez. Esto se implementa en la redunfunción en el Hmiscpaquete R. El agrupamiento de variables, el análisis de componentes principales y el análisis factorial son otras posibilidades. Pero la parte principal del análisis, en mi opinión, debería ser la construcción de un buen modelo de probabilidad (por ejemplo, modelo logístico binario).

Frank Harrell
fuente

+1 por la importante distinción sobre la decisión individual versus la decisión grupal. Debería haber anticipado su respuesta, dada su respuesta aquí u otra respuesta suya en la lista de correo de medstats . También encontré su charla sobre medidas directas de utilidad de diagnóstico basada en modelos de riesgo de diagnóstico particularmente esclarecedora a este respecto.

chl

La charla sobre medidas directas de la utilidad de diagnóstico basada en modelos de riesgo de diagnóstico ahora se puede encontrar aquí kc.vanderbilt.edu/quant/Seminar/HarrellPresentMay12.pdf

Epifunky

El punto del artículo de Janes, Pepe sobre las curvas ROC ajustadas por covariable está permitiendo una interpretación más flexible de los valores estimados de la curva ROC. Este es un método para estratificar curvas ROC entre grupos específicos en la población de interés. La fracción positiva verdadera estimada (TPF; sensibilidad eq.) Y la fracción negativa verdadera (TNF; especificidad eq.) Se interpretan como "la probabilidad de un resultado de detección correcto dado el estado de la enfermedad es S / N entre individuos de la misma [variable ajustada lista]". De un vistazo, parece que lo que está tratando de hacer es mejorar su prueba de diagnóstico al incorporar más marcadores en su panel.

Un buen antecedente para comprender un poco mejor estos métodos sería leer sobre el modelo de riesgos proporcionales de Cox y mirar el libro de Pepe sobre "La evaluación estadística de pruebas médicas para clasificación y ...". Notará que las medidas de confiabilidad de detección comparten muchas propiedades similares con una curva de supervivencia, pensando en el puntaje ajustado como un tiempo de supervivencia. Así como el modelo de Cox permite la estratificación de la curva de supervivencia, proponen dar medidas de confiabilidad estratificadas.

La razón por la que esto nos importa podría estar justificada en el contexto de un modelo binario de efectos mixtos: supongamos que está interesado en predecir el riesgo de convertirse en un adicto a la metanfetamina. El SES tiene un efecto dominante tan obvio sobre esto que parece una tontería evaluar una prueba de diagnóstico, que podría basarse en comportamientos personales, sin estratificarse de alguna manera. Esto es porque [solo sigue con esto], incluso si una persona rica mostró síntomas maníacos y depresivos, probablemente nunca probarán metanfetamina. Sin embargo, una persona pobre mostraría un mayor riesgo mucho mayor de tener tales síntomas psicológicos (y una puntuación de riesgo más alta). El análisis crudo del riesgo mostraría un desempeño muy pobre de su modelo predictivo porque las mismas diferencias en dos grupos no eran confiables. Sin embargo, si se estratificó (rico versus pobre),

El punto de ajuste de covariables es considerar diferentes grupos homogéneos debido a una menor prevalencia e interacción en el modelo de riesgo entre estratos distintos.

AdamO
fuente

(+1) Esa es una respuesta interesante, muchas gracias. Mi principal preocupación al momento de escribir esto era que los valores de corte serían algo "interdependientes". Pero revisaré el libro de Pepe ( mientras tanto, encontré algunos folletos aquí ).

chl

Existen problemas con el uso de los mismos datos para desarrollar y evaluar un examen médico, pero la solución es fácil. Debería considerar algún tipo de validación cruzada, o dividir los datos en subconjuntos de "capacitación" y "validación". Este es típicamente un enfoque válido para desarrollar un modelo de diagnóstico / pronóstico / predicción de riesgo.

AdamO