¿Cómo combinar los resultados de varias pruebas binarias?

En primer lugar, permítanme decir que tuve un curso de estadísticas en la escuela de ingeniería hace 38 años. Así que estoy volando a ciegas aquí.

Tengo los resultados de lo que son esencialmente 18 pruebas de diagnóstico separadas para una enfermedad. Cada prueba es binaria: sí / no, sin umbral que se pueda ajustar para "ajustar" la prueba. Para cada prueba tengo lo que son datos ostensiblemente válidos sobre verdaderos / falsos positivos / negativos en comparación con el "estándar de oro", produciendo números de especificidad y sensibilidad (y cualquier otra cosa que pueda derivar de esos datos).

Por supuesto, ninguna prueba individual tiene suficiente especificidad / sensibilidad para usarse sola, y cuando se "observa" los resultados de todas las pruebas, con frecuencia no hay una tendencia obvia.

Me pregunto cuál es la mejor manera de combinar estos números de una manera que produzca un puntaje final que sea (con suerte) más confiable que cualquier prueba individual. Hasta ahora se me ocurrió la técnica de combinar las especificidades de las pruebas VERDADERAS utilizando

spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)

y combinando sensibilidades de las pruebas FALSAS de la misma manera. El radio

(1 - sens_combined) / (1 - spec_combined)

luego parece producir un "puntaje final" razonablemente bueno, con un valor superior a 10 más o menos como un VERDADERO confiable y un valor inferior a 0,1 o más como un FALSO confiable.

Pero este esquema carece de rigor verdadero, y para algunas combinaciones de resultados de la prueba parece producir una respuesta que es contra-intuitiva.

¿Existe una mejor manera de combinar los resultados de las pruebas múltiples, dadas sus especificidades y sensibilidades? (Algunas pruebas tienen una especificidad de 85 y una sensibilidad de 15, otras pruebas son todo lo contrario).

OK, me duele la cabeza!

Digamos que tengo pruebas 1-4 con sensibilidades / especificidades (en%):

65/50
25/70
30/60
85/35

Las pruebas 1 y 2 son positivas, 3 y 4 negativas.

La probabilidad putativa de que 1 sea un falso positivo sería (1 - 0.5), y para 2 (1 - 0.7), por lo que la probabilidad de que ambos sean falsos positivos sería 0.5 x 0.3 = 0.15.

La probabilidad de que 3 y 4 sean falsos negativos sería (1 - 0.3) y (1 - 0.85) o 0.7 x 0.15 = 0.105.

(Ignoraremos por el momento el hecho de que los números no suman).

Pero las presuntas probabilidades de que 1 y 2 sean verdaderos positivos son 0.65 y 0.25 = 0.1625, mientras que las presuntas probabilidades de que 3 y 4 sean verdaderos negativos son 0.6 y 0.35 = 0.21.

Ahora podemos hacer dos preguntas:

¿Por qué no se suman los números (o incluso se acercan) (Los números sens / spec que utilicé son de "vida real").
¿Cómo debo decidir qué hipótesis es (muy probablemente) verdadera (en este ejemplo parece ser "negativa" para ambos cálculos, pero no estoy seguro de que sea siempre el caso), y qué puedo usar para una "figura de mérito" "para decidir si el resultado es" significativo "?

Más información

Este es un intento de refinar y extender un esquema existente de "ponderación" que es completamente "artístico" en su naturaleza (es decir, que acaba de salir de una persona **). El esquema actual se basa básicamente en las líneas de "Si dos de los primeros tres son positivos, y si dos de los siguientes cuatro, y cualquiera de los siguientes dos, asumen que son positivos". (Es un ejemplo un tanto simplificado, por supuesto). Las estadísticas disponibles no son compatibles con ese esquema de ponderación, incluso con un algoritmo de ponderación crudo basado en las estadísticas medidas, se me ocurren respuestas significativamente diferentes. Pero, a falta de una forma rigurosa de evaluar las estadísticas, no tengo credibilidad.

Además, el esquema actual solo decide positivo / negativo, y necesito crear un caso "ambiguo" (estadísticamente válido) en el medio, por lo que se necesita alguna figura de mérito.

Último

He implementado un algoritmo de inferencia bayesiano más o menos "puro" y, después de dar vueltas y vueltas en varios aspectos secundarios, parece estar funcionando bastante bien. En lugar de trabajar a partir de especificidades y sensibilidades, deduzco las entradas de la fórmula directamente de los números positivos verdaderos / falsos positivos. Desafortunadamente, esto significa que no puedo usar algunos de los datos de mejor calidad que no se presentan de una manera que permita extraer estos números, pero el algoritmo es mucho más limpio, permite la modificación de las entradas con mucho menos cálculo manual, y parece bastante estable y los resultados coinciden bastante bien con la "intuición".

También se me ocurrió un "algoritmo" (en el sentido puramente de programación) para manejar las interacciones entre observaciones interdependientes. Básicamente, en lugar de buscar una fórmula de barrido, en cambio mantengo para cada observación un multiplicador de probabilidad marginal que se modifica a medida que se procesan las observaciones anteriores, basado en una tabla simple: "Si la observación A es verdadera, modifique la probabilidad marginal de la observación B por un factor de 1.2 ", ej. No es elegante, de ninguna manera, pero es útil, y parece ser razonablemente estable en un rango de entradas.

(Otorgaré la recompensa por lo que considero que ha sido la publicación más útil en unas pocas horas, así que si alguien quiere obtener algunos lamidos, háganlo).

classification bayesian diagnostic Daniel R Hicks
fuente

La probabilidad de que la prueba 1 sea un falso positivo no es 1 - .5, es 1 - (.5 * Probabilidad de no tener la enfermedad)

fgregg

Buen punto. Eso puede ayudarme a dar un poco más de sentido a las cosas.

Daniel R Hicks

Lo siento, en realidad, estaba equivocado. Especificidad = Pr (Verdadero negativo) / [Pr (Verdadero negativo) + Pr (Falso positivo)] entonces Pr (Falso positivo) = Pr (Verdadero negativo) / especificidad - Pr (Verdadero negativo) que equivale a Pr (Falso positivo) = Pr (Sin enfermedad) (1 - especificidad)

fgregg

Solo para aclarar: cuando dice que busca rigor, no quiere decir "rigor estadístico", es decir, no necesariamente necesita la prueba combinada para obtener probabilidades precisas de errores de tipo 1 y 2, ¿verdad? ¿Estás buscando algo que no se saca de la nada?

SheldonCooper

¿Cómo sabes que las pruebas son fuertemente interdependientes? ¿Es su conocimiento de alto nivel a priori (por ejemplo, ambas pruebas usan presión arterial, por lo que probablemente estén correlacionadas) o tiene estadísticas que muestren que están correlacionadas? Si es lo último, puede usar una ligera modificación de la propuesta de fgregg: modele todas las pruebas como independientes, excepto los pares interdependientes, que debe modelar como pares. Esto requerirá algunas estadísticas adicionales (de la forma ), que presumiblemente tiene ya que sabe que están correlacionadas.

p (T_{1}, T_{2} | D i s e a s e)

$p(T_1, T_2 | Disease)$

SheldonCooper

Respuestas:

"Me pregunto cuál es la mejor manera de combinar estos números de una manera que produzca un puntaje final que sea (con suerte) más confiable que cualquier prueba individual". Una forma muy común es calcular el alfa de Cronbach y, en general, realizar lo que algunos llamarían un análisis de confiabilidad "estándar". Esto mostraría en qué medida un puntaje dado se correlaciona con la media de los otros 17 puntajes; qué puntajes de las pruebas podrían eliminarse mejor de la escala y cuál es la confiabilidad de consistencia interna con los 18 y con un subconjunto dado. Ahora, algunos de sus comentarios parecen indicar que muchos de estos 18 no están correlacionados; Si eso es cierto, puede terminar con una escala que consta de solo unas pocas pruebas.

EDITAR DESPUÉS DEL COMENTARIO: Otro enfoque se basa en la idea de que existe una compensación entre la consistencia interna y la validez. Cuanto menos correlacionadas estén sus pruebas, mejor será su cobertura de contenido, lo que mejora la validez del contenido (si no la confiabilidad). Entonces, pensando en estas líneas, ignoraría el alfa de Cronbach y los indicadores relacionados de la correlación ítem-total y, en su lugar, utilizaría un razonamiento a priori para combinar las 18 pruebas en una escala. Esperemos que tal escala se correlacione altamente con su estándar de oro.

rolando2
fuente

Por varias razones (básicamente un sesgo médico conservador) no tengo la opción de eliminar ninguna prueba, ni quiero hacerlo especialmente. Piense en ello como algo similar a un puntaje de crédito, donde tener una gran deuda de tarjeta de crédito no está "correlacionado" con tener un trabajo mal pagado, apto para ser despedido, pero los dos juntos crean una situación mucho más grave. que bien individualmente.

Daniel R Hicks

Para simplificar un poco, supongamos que solo tiene dos pruebas de diagnóstico. Quieres calcular

Pr (Disease ∣ T_{1}, T_{2}) = \frac{Pr (T_{1}, T_{2} ∣ Disease) Pr (Disease)}{Pr (T_{1}, T_{2})}

$\Pr(\text{Disease} \mid T_1,T_2) = \frac{\Pr(T_1,T_2 \mid \text{Disease})\Pr(\text{Disease})}{\Pr(T_1,T_2)}$

Usted sugirió que los resultados de estas pruebas son independientes, condicionales a la persona que tiene una enfermedad. Si es así, entonces

Pr (T_{1}, T_{2} ∣ Disease) = Pr (T_{1} ∣ Disease) Pr (T_{2} ∣ Disease)

$\Pr(T_1,T_2 \mid \text{Disease}) = \Pr(T_1 \mid \text{Disease})\Pr(T_2 \mid \text{Disease})$

Donde es la sensibilidad de la Prueba . $\Pr(T_i \mid \text{Disease})$ $i$

$\Pr(T_1,T_2)$ es la probabilidad incondicional de que una persona aleatoria positiva en ambas pruebas:

Pr (T_{1}, T_{2}) = Pr (T_{1}, T_{2} ∣ Disease) Pr (Disease) + Pr (T_{1}, T_{2} ∣ No Disease) Pr (No Disease)

$\Pr(T_1,T_2) = \Pr(T_1,T_2 \mid \text{Disease})\Pr(\text{Disease}) + \Pr(T_1,T_2 \mid \text{No Disease})\Pr(\text{No Disease})$

Dónde

Pr (T_{1}, T_{2} ∣ No Disease) = Pr (T_{1} ∣ No Disease) Pr (T_{2} ∣ No Disease)

$\Pr(T_1,T_2 \mid \text{No Disease}) = \Pr(T_1 \mid \text{No Disease})\Pr(T_2 \mid \text{No Disease})$

y es para la Prueba . $\Pr(T_i \mid \text{No Disease})$ $1 - \text{specificity}$ $i$

fgregg
fuente

No estoy seguro de que esto funcione en mi caso (si estoy entendiendo la "regresión logística" hasta la mitad correctamente). En primer lugar, como se describe, no hay umbrales (o al menos relativamente pocos) o factores de ajuste que pueda ajustar para cada prueba individual, solo resultados positivos / negativos. En segundo lugar, no me puedo dar el lujo de poder obtener nuevos datos para "entrenar" el modelo, solo encontrar los datos que tengo fue como arrancarme los dientes.

Daniel R Hicks

¿Podría describir sus datos un poco más? ¿Pensé que sabías la verdad fundamental de si los casos tenían la enfermedad o no?

fgregg

La dificultad que tiene con los números que no coinciden es con información redundante. Por ejemplo, suponga que una de las pruebas es "presión arterial sistólica (PAS)> 140", y la otra es "presión arterial diastólica (PAD)> 90". Bueno, estos 2 están correlacionados y la información inherente a cada uno no es única. Combinándolos lógicamente, diga "SBP> 140 o DBP> 90" ofrecerá una mejora incremental en la sensibilidad. Pero sin un conjunto de datos que mida simultáneamente el estándar de oro, SBP y DBP, no hay una forma precisa de cuantificar la sensibilidad y la especificidad de la prueba combinada.

Ming K

@Daniel: Parece que no necesitará datos nuevos (más allá de lo que ya tiene) para este enfoque. Parece que necesitará las tasas de verdadero / falso positivo / negativo, y no necesita ningún umbral.

SheldonCooper

@Daniel: esto fue en respuesta a tu comentario del 14 de julio. Lo que ha descrito fgregg es básicamente un enfoque ingenuo de Bayes. Parece que tiene suficiente información para usar este enfoque. Todo lo que necesitas son las tarifas, que tienes. No necesita ninguna información nueva y no necesita ningún umbral en las pruebas. Parece que ya lo descubriste, ya que dices que lo intentaste. Tiene razón en que cualquier dependencia sesgará los resultados.

SheldonCooper