Esta pregunta trata sobre la estimación de puntajes de corte en un cuestionario de detección multidimensional para predecir un punto final binario, en presencia de escalas correlacionadas.
Me preguntaron sobre el interés de controlar las puntuaciones secundarias asociadas al diseñar puntajes de corte en cada dimensión de una escala de medición (rasgos de personalidad) que podrían usarse para la detección del alcoholismo. Es decir, en este caso particular, la persona no estaba interesada en ajustar las covariables externas (predictores), lo que lleva a un área (parcial) bajo la curva ROC ajustada por covariables, por ejemplo (1-2), pero esencialmente en otras puntuaciones del mismo cuestionario porque se correlacionan entre sí (por ejemplo, "impulsividad" con "búsqueda de sensaciones"). Equivale a construir un GLM que incluya en el lado izquierdo el puntaje de interés (para el cual buscamos un punto de corte) y otro puntaje calculado a partir del mismo cuestionario, mientras que en el lado derecho el resultado puede ser el estado de consumo.
Para aclarar (por solicitud de @robin), supongamos que tenemos puntajes, digamos (por ejemplo, ansiedad, impulsividad, neuroticismo, búsqueda de sensaciones), y queremos encontrar un valor de corte (es decir, "caso positivo" si , "caso negativo" de lo contrario) para cada uno de ellos. Por lo general, ajustamos otros factores de riesgo como el sexo o la edad cuando diseñamos dicho límite (mediante el análisis de la curva ROC). Ahora, ¿qué pasa con el ajuste de la impulsividad (IMP) en cuanto a género, edad y búsqueda de sensaciones (SS) ya que se sabe que SS se correlaciona con IMP? En otras palabras, tendríamos un valor de corte para IMP donde se eliminan los efectos de la edad, el sexo y el nivel de ansiedad.
Además de decir que un límite debe ser lo más simple posible, mi respuesta fue
Con respecto a las covariables, recomendaría estimar las AUC con y sin ajuste, solo para ver si aumenta el rendimiento predictivo. Aquí, sus covariables son simplemente otras puntuaciones secundarias definidas a partir del mismo instrumento de medición y nunca enfrenté tal situación (generalmente, me ajusto a factores de riesgo conocidos, como Edad o Género). [...] Además, dado que está interesado en cuestiones de pronóstico (es decir, la eficacia de la evaluación del cuestionario), también puede estar interesado en estimar el valor predictivo positivo (VPP, probabilidad de pacientes con resultados positivos de prueba que se clasifican correctamente) proporcionados puede clasificar las asignaturas como "positivas" o "negativas" en función de sus puntuaciones en su cuestionario. Nota, sin embargo,
¿Tiene una comprensión más profunda de esta situación particular, con un enlace a documentos relevantes cuando sea posible?
Referencias
- Janes, H y Pepe, MS (2008). Ajuste de covariables en estudios de marcadores de diagnóstico, detección o pronóstico: un concepto antiguo en un entorno nuevo . American Journal of Epidemiology , 168 (1): 89-97.
- Janes, H y Pepe, MS (2008). Acomodación de covariables en el análisis ROC . UW Biostatistics Working Paper Series , Paper 322.
fuente
Respuestas:
La forma en que has imaginado el análisis no es realmente la forma en que te sugiero que comiences a pensar en ello. En primer lugar, es fácil demostrar que si se deben usar los límites, los límites no se aplican a las características individuales sino a la probabilidad general pronosticada. El límite óptimo para una sola covariable depende de todos los niveles de las otras covariables; No puede ser constante. En segundo lugar, las curvas ROC no juegan ningún papel en el cumplimiento del objetivo de tomar decisiones óptimas para un tema individual .
Para manejar escalas correlacionadas, hay muchas técnicas de reducción de datos que pueden ayudar. Uno de ellos es un análisis de redundancia formal en el que cada predictor se predice de forma no lineal a partir de todos los demás predictores, a su vez. Esto se implementa en la
redun
función en elHmisc
paquete R. El agrupamiento de variables, el análisis de componentes principales y el análisis factorial son otras posibilidades. Pero la parte principal del análisis, en mi opinión, debería ser la construcción de un buen modelo de probabilidad (por ejemplo, modelo logístico binario).fuente
El punto del artículo de Janes, Pepe sobre las curvas ROC ajustadas por covariable está permitiendo una interpretación más flexible de los valores estimados de la curva ROC. Este es un método para estratificar curvas ROC entre grupos específicos en la población de interés. La fracción positiva verdadera estimada (TPF; sensibilidad eq.) Y la fracción negativa verdadera (TNF; especificidad eq.) Se interpretan como "la probabilidad de un resultado de detección correcto dado el estado de la enfermedad es S / N entre individuos de la misma [variable ajustada lista]". De un vistazo, parece que lo que está tratando de hacer es mejorar su prueba de diagnóstico al incorporar más marcadores en su panel.
Un buen antecedente para comprender un poco mejor estos métodos sería leer sobre el modelo de riesgos proporcionales de Cox y mirar el libro de Pepe sobre "La evaluación estadística de pruebas médicas para clasificación y ...". Notará que las medidas de confiabilidad de detección comparten muchas propiedades similares con una curva de supervivencia, pensando en el puntaje ajustado como un tiempo de supervivencia. Así como el modelo de Cox permite la estratificación de la curva de supervivencia, proponen dar medidas de confiabilidad estratificadas.
La razón por la que esto nos importa podría estar justificada en el contexto de un modelo binario de efectos mixtos: supongamos que está interesado en predecir el riesgo de convertirse en un adicto a la metanfetamina. El SES tiene un efecto dominante tan obvio sobre esto que parece una tontería evaluar una prueba de diagnóstico, que podría basarse en comportamientos personales, sin estratificarse de alguna manera. Esto es porque [solo sigue con esto], incluso si una persona rica mostró síntomas maníacos y depresivos, probablemente nunca probarán metanfetamina. Sin embargo, una persona pobre mostraría un mayor riesgo mucho mayor de tener tales síntomas psicológicos (y una puntuación de riesgo más alta). El análisis crudo del riesgo mostraría un desempeño muy pobre de su modelo predictivo porque las mismas diferencias en dos grupos no eran confiables. Sin embargo, si se estratificó (rico versus pobre),
El punto de ajuste de covariables es considerar diferentes grupos homogéneos debido a una menor prevalencia e interacción en el modelo de riesgo entre estratos distintos.
fuente