Aunque las respuestas de @ Tim ♦ y @ gung ♦ cubren casi todo, intentaré sintetizarlas en una sola y proporcionar más aclaraciones.
El contexto de las líneas citadas podría referirse principalmente a pruebas clínicas en forma de cierto Umbral, como es más común. Imagine una enfermedad , y todo excepto D, incluido el estado saludable conocido como D c . Nosotros, para nuestra prueba, quisiéramos encontrar alguna medida de proxy que nos permita obtener una buena predicción para DDDDcD (1) La razón por la que no obtenemos especificidad / sensibilidad absoluta es que los valores de nuestra cantidad de proxy no se correlacionan perfectamente con el estado de la enfermedad, pero generalmente solo se asocia con él y, por lo tanto, en mediciones individuales, podríamos tener la posibilidad de que esa cantidad cruce nuestro umbral para Dcindividuos y viceversa. En aras de la claridad, supongamos un modelo gaussiano para la variabilidad.
Digamos que estamos usando como la cantidad de proxy. Si x se ha elegido bien, entonces E [ x D ] debe ser mayor que E [ x D c ] ( E es el operador del valor esperado). Ahora el problema surge cuando nos damos cuenta de que D es una situación compuesta (también lo es D c ), en realidad hecha de 3 grados de severidad D 1 , D 2 , D 3 , cada uno con un valor esperado progresivamente creciente para laxxE[xD]E[xDc]EDDcD1D2D3 . Para un solo individuo, seleccionado entrex categoría D o de lacategoría D c , las probabilidades de que la 'prueba' sea positiva o no dependerá del valor umbral que elijamos. Digamos que elegimos x T en base al estudio de una muestra verdaderamente aleatoria que tieneindividuos D y D c . Nuestra x T causará algunos falsos positivos y negativos. Si seleccionamos unapersona D al azar, la probabilidad que gobierna suvalor x es dada por el gráfico verde, y la de unapersona D c elegida al azarpor el gráfico rojo.DDcxTDDcxTDxDc
Los números reales obtenidos dependerán de los números reales de individuos y D c, pero la especificidad y sensibilidad resultantes no lo harán. Deje F ( ) ser una función de probabilidad acumulativa. Luego, para la prevalencia de p de la enfermedad D , aquí hay una tabla de 2x2 como se esperaría del caso general, cuando tratamos de ver realmente cómo funciona nuestra prueba en la población combinada.DDcF()pD
( D c , - ) = ( 1 - p ) ( 1 - F D c ( x T ) ) ( D , - ) = p ( F D ( x T ) ) ( D c
(D,+)=p(1−FD(xT))
( D c , - ) = ( 1 - p ) ( 1 - FD c( xT) )
( D , - ) = p ( Fre( xT) )
( D c , + ) = ( 1 - p ) ∗ FD c( xT)
Los números reales dependen de , pero la sensibilidad y la especificidad son independientes de p . Pero, ambos dependen de F D y F D c . Por lo tanto, todos los factores que los afectan cambiarán definitivamente estas métricas. Si estuviéramos, por ejemplo, trabajando en la UCI, nuestra F D sería reemplazada por F D 3 , y si estuviéramos hablando de pacientes ambulatorios, reemplazada por F D 1 . Es un asunto separado que en el hospital, la prevalencia también es diferente,pagpagFreFD cFreFD 3FD 1pero no es la diferente prevalencia lo que hace que las sensibilidades y especificidades difieran, sino la distribución diferente, ya que el modelo en el que se definió el umbral no era aplicable a la población que aparecía como pacientes ambulatorios o pacientes hospitalizados . Puede seguir adelante y desglosar en múltiples subpoblaciones, ya que la subparte de internación de D c también tendrá una x elevada debido a otras razones (ya que la mayoría de los servidores proxy también están 'elevados' en otras condiciones graves). La ruptura de la población D en subpoblación explica el cambio en la sensibilidad, mientras que el de la población D c explica el cambio en la especificidad (por los cambios correspondientes enreCreCXrereC y F D cFreFD cEsto es de lo que realmente se compone el gráfico compuesto. Cada uno de los colores tendrá su propia F y, por lo tanto, siempre que esto difiera de la F en la que se calcularon la sensibilidad y especificidad originales, estas métricas cambiarán.reFF
Ejemplo
Suponga una población de 11550 con 10000 Dc, 500,750,300 D1, D2, D3 respectivamente. La parte comentada es el código utilizado para los gráficos anteriores.
set.seed(12345)
dc<-rnorm(10000,mean = 9, sd = 3)
d1<-rnorm(500,mean = 15,sd=2)
d2<-rnorm(750,mean=17,sd=2)
d3<-rnorm(300,mean=20,sd=2)
d<-cbind(c(d1,d2,d3),c(rep('1',500),rep('2',750),rep('3',300)))
library(ggplot2)
#ggplot(data.frame(dc))+geom_density(aes(x=dc),alpha=0.5,fill='green')+geom_density(data=data.frame(c(d1,d2,d3)),aes(x=c(d1,d2,d3)),alpha=0.5, fill='red')+geom_vline(xintercept = 13.5,color='black',size=2)+scale_x_continuous(name='Values for x',breaks=c(mean(dc),mean(as.numeric(d[,1])),13.5),labels=c('x_dc','x_d','x_T'))
#ggplot(data.frame(d))+geom_density(aes(x=as.numeric(d[,1]),..count..,fill=d[,2]),position='stack',alpha=0.5)+xlab('x-values')
Podemos calcular fácilmente las medias x para las diversas poblaciones, incluidas Dc, D1, D2, D3 y el compuesto D.
mean(dc)
mean(d1)
mean(d2)
mean(d3)
mean(as.numeric(d[,1]))
> mean(dc) [1] 8.997931
> mean(d1) [1] 14.95559
> mean(d2) [1] 17.01523
> mean(d3) [1] 19.76903
> mean(as.numeric(d[,1])) [1] 16.88382
Para obtener una tabla de 2x2 para nuestro caso de prueba original, primero establecemos un umbral, basado en los datos (que en un caso real se establecería después de ejecutar la prueba como muestra @gung). De todos modos, suponiendo un umbral de 13.5, obtenemos la siguiente sensibilidad y especificidad cuando se calcula en toda la población.
sdc<-sample(dc,0.1*length(dc))
sdcomposite<-sample(c(d1,d2,d3),0.1*length(c(d1,d2,d3)))
threshold<-13.5
truepositive<-sum(sdcomposite>13.5)
truenegative<-sum(sdc<=13.5)
falsepositive<-sum(sdc>13.5)
falsenegative<-sum(sdcomposite<=13.5)
print(c(truepositive,truenegative,falsepositive,falsenegative))
sensitivity<-truepositive/length(sdcomposite)
specificity<-truenegative/length(sdc)
print(c(sensitivity,specificity))
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]139 928 72 16
> print(c(sensitivity,specificity)) [1] 0.8967742 0.9280000
Supongamos que estamos trabajando con los pacientes ambulatorios y que solo tenemos pacientes enfermos de la proporción D1, o que estamos trabajando en la UCI donde solo recibimos D3. (para un caso más general, también necesitamos dividir el componente Dc) ¿Cómo cambian nuestra sensibilidad y especificidad? Al cambiar la prevalencia (es decir, al cambiar la proporción relativa de pacientes que pertenecen a cualquier caso, no cambiamos la especificidad y la sensibilidad en absoluto. Simplemente sucede que esta prevalencia también cambia con la distribución cambiante)
sdc<-sample(dc,0.1*length(dc))
sd1<-sample(d1,0.1*length(d1))
truepositive<-sum(sd1>13.5)
truenegative<-sum(sdc<=13.5)
falsepositive<-sum(sdc>13.5)
falsenegative<-sum(sd1<=13.5)
print(c(truepositive,truenegative,falsepositive,falsenegative))
sensitivity1<-truepositive/length(sd1)
specificity1<-truenegative/length(sdc)
print(c(sensitivity1,specificity1))
sdc<-sample(dc,0.1*length(dc))
sd3<-sample(d3,0.1*length(d3))
truepositive<-sum(sd3>13.5)
truenegative<-sum(sdc<=13.5)
falsepositive<-sum(sdc>13.5)
falsenegative<-sum(sd3<=13.5)
print(c(truepositive,truenegative,falsepositive,falsenegative))
sensitivity3<-truepositive/length(sd3)
specificity3<-truenegative/length(sdc)
print(c(sensitivity3,specificity3))
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1] 38 931 69 12
> print(c(sensitivity1,specificity1)) [1] 0.760 0.931
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1] 30 944 56 0
> print(c(sensitivity3,specificity3)) [1] 1.000 0.944
Para resumir, una gráfica para mostrar el cambio de sensibilidad (la especificidad seguiría una tendencia similar si también hubiéramos compuesto la población Dc a partir de subpoblaciones) con media variable x para la población, aquí hay un gráfico
df<-data.frame(V1=c(sensitivity,sensitivity1,sensitivity3),V2=c(mean(c(d1,d2,d3)),mean(d1),mean(d3)))
ggplot(df)+geom_point(aes(x=V2,y=V1),size=2)+geom_line(aes(x=V2,y=V1))
- re
Como ya han dicho otros, la sensibilidad y la especificidad no dependen de la prevalencia. La sensibilidad es la proporción de verdaderos positivos entre todos los positivos y la especificidad es la proporción de verdaderos negativos entre todos los negativos. Entonces, si la sensibilidad es del 90%, la prueba será correcta para el 90% de los casos que sean positivos. Obviamente, el 90% de algo más pequeño y el 90% de algo más grande sigue siendo 90% ...
Entonces, dados los datos tabulares que mencionas,
Pero la cita también parece estar diciendo algo más.
Entonces, los autores dicen que la sensibilidad difiere en los diferentes grupos. Supongo que los pacientes hospitalizados y ambulatorios pueden diferir en muchos aspectos, no solo en la prevalencia sola, por lo que algunos otros factores pueden influir en la sensibilidad. Por lo tanto, estoy de acuerdo en que pueden cambiar entre diferentes conjuntos de datos, que difieren en prevalencia, pero el cambio no será una función de la prevalencia en sí (como lo muestra @gung en su respuesta).
y, en muchos casos, esta es la probabilidad de que las personas estén interesadas ("¿qué tan probable es que un paciente con un resultado positivo de la prueba tenga realmente la enfermedad?") y depende de la prevalencia. Tenga en cuenta que también su enlace discute el impacto de la prevalencia en el valor predictivo positivo, es decir, la probabilidad posterior, no en la sensibilidad.
fuente
Vea mi respuesta aquí sobre las tasas de verdadero / falso positivo / negativo.
La sensibilidad es solo otro nombre para la tasa positiva verdadera, y la especificidad es la misma que la tasa negativa verdadera. Tanto la sensibilidad como la especificidad son probabilidades condicionales; condicionan el estado de la enfermedad del paciente. Por lo tanto, la prevalencia de la enfermedad (es decir, la probabilidad a priori de que un paciente tenga la enfermedad) es irrelevante, ya que usted está asumiendo un estado de enfermedad particular.
No puedo comentar por qué el autor del libro de texto afirma que la sensibilidad y la especificidad dependen del contexto clínico. ¿Son estas observaciones empíricas?
fuente
Por supuesto, no puedo hablar de las intenciones del autor, pero este sería mi razonamiento para esa declaración:
Considere el contexto clínico como una prueba de diagnóstico en sí. Uno con muy poca sensibilidad y especificidad, pero una prueba no obstante. Si está en el hospital, es probable que se enferme. Si no está en el hospital, no es probable que se enferme.
Desde esta perspectiva, la prueba de diagnóstico real que realiza es en realidad la segunda parte de dos pruebas realizadas en serie.
fuente
Esto debe ser un error. Creo que quizás el autor está tratando de sugerir que el valor predictivo positivo y negativo (VPP y VPN) depende de la prevalencia (así como de la sensibilidad y la especificidad). Estos a menudo se discuten con pruebas de diagnóstico y, para un médico, tal vez más valioso que la interpretación cruda de sensibilidad y especificidad.
Este gráfico demuestra la relación entre el VPP y el VPN con prevalencia, para una prueba con 95% de sensibilidad y 85% de especificidad.
De Mausner JS, Kramer S: Epidemiología de Mausner y Bahn: un texto introductorio. Filadelfia, WB Saunders, 1985, p. 221.
fuente
@Satwik, @gung y @Tim ya han proporcionado muchos detalles, pero intentaré agregar un pequeño ejemplo de cómo el caso de los factores subyacentes puede causar tal efecto.
Un principio clave: sesgo
La sensibilidad / especificidad y TODAS las pruebas estadísticas comparten la misma advertencia: se aplica solo a repetir el mismo procedimiento de muestreo que antes de manera imparcial.
Los hospitales son organizaciones funcionales diseñadas para realizar muestreos sesgados, que utilizan políticas de admisión para filtrar a la población general en aquellos que requieren admisión y tratamiento. Esto es muy antítesis del procedimiento científico. Si desea saber cómo se realiza una prueba en diferentes poblaciones, debe realizarse una prueba en diferentes poblaciones.
El efecto latente: correlación
Es raro (o imposible en el mundo real si quiere ser estricto) que un diagnóstico sea independiente / ortogonal a todos los demás factores de riesgo de una enfermedad, por lo que existe cierto grado de correlación.
Si la pantalla de ingreso al hospital se correlaciona positivamente con el diagnóstico, entonces lo que encontrará es que las personas que pasan la prueba de ingreso están predispuestas favorablemente a resultados positivos por el diagnóstico, proporcional a la correlación. Así, los verdaderos positivos se enriquecen y los falsos negativos se reducen en cantidades proporcionales a la correlación.
Esto hace que la sensibilidad parezca más grande.
La explicación del fenómeno.
Por lo tanto, una observación de que la sensibilidad puede ser mayor en un contexto hospitalario no es poco realista. De hecho, si la política de admisión está bien pensada y es adecuada para su propósito, uno esperaría que esto ocurra.
No es evidencia de un colapso en el supuesto de que la sensibilidad y la especificidad son independientes de la prevalencia, más bien es evidencia de un muestreo sesgado basado en la política de admisión hospitalaria.
Lo cual, dado que un hospital está allí para tratar a las personas y no para hacer experimentos científicos, definitivamente es algo bueno.
Pero sí les da dolor de cabeza a los científicos.
fuente