Comparación longitudinal de dos distribuciones.

Tengo los resultados de una prueba de sangre administrada a 2500 personas cuatro veces a intervalos de seis meses. Los resultados consisten principalmente en dos medidas de respuesta inmune: una en presencia de ciertos antígenos de tuberculosis y otra en ausencia. Actualmente, cada prueba se evalúa como positiva o negativa en función de la diferencia entre la respuesta al antígeno y la respuesta nula (con la idea de que si su sistema inmunitario responde a los antígenos de la TB, es probable que haya estado expuesto a la bacteria en algún momento) ) En esencia, la prueba supone que las distribuciones de un individuo no expuesto de respuestas nulas y de TB deben ser básicamente idénticas, mientras que una persona con exposición a TB tendrá respuestas de TB de una distribución diferente (de valores más altos). Consideración: las respuestas son muy, muy no normales, y los valores se agrupan tanto en el piso natural como en el techo truncado por instrumentos.

Sin embargo, parece bastante claro en esta configuración longitudinal que estamos obteniendo "falsos positivos" (no hay un estándar de oro real para la tuberculosis latente, me temo) que son causados por fluctuaciones (típicamente pequeñas) en el antígeno y respuestas nulas. Si bien esto puede ser difícil de evitar en algunas situaciones (es posible que solo tenga una oportunidad de evaluar a alguien), hay muchas situaciones en las que a las personas se les realizan pruebas de detección de tuberculosis de forma rutinaria cada año más o menos; en los EE. UU. los militares, las personas sin hogar que se alojan en refugios, etc. Parece una pena ignorar los resultados de las pruebas anteriores porque los criterios existentes resultan ser transversales.

Yo creo que lo que me gustaría hacer es lo que crudamente conciben como el análisis de mezclas longitudinal. Al igual que los criterios transversales, me gustaría poder estimar la probabilidad de que las respuestas de TB y nulas de un individuo se extraigan de la misma distribución, pero que esa estimación incorpore resultados de pruebas anteriores, así como información de la muestra como un todo (p. ej., ¿puedo usar la distribución de toda la muestra de las variabilidades dentro de cada individuo para mejorar mis estimaciones de la distribución de nulo o TB de un individuo específico?). La probabilidad estimada necesitaría poder cambiar con el tiempo, por supuesto, para tener en cuenta la posibilidad de una nueva infección.

Me he vuelto totalmente loco tratando de pensar en esto de maneras inusuales, pero siento que esta conceptualización es tan buena como cualquiera que se me ocurra. Si algo no tiene sentido, no dude en solicitar una aclaración. Si mi comprensión de la situación parece incorrecta, no dude en decirme. Muchas gracias por tu ayuda.

En respuesta a Srikant: Es un caso de clasificación latente (infectada o no con TB) usando los dos resultados de prueba continuos (pero no normales y truncados). En este momento, esa clasificación se realiza utilizando un punto de corte (en su forma simplificada, TB - nulo> .35 -> positivo). Con los resultados de la prueba presentados como (nulo, TB, resultado), los arquetipos básicos * son:

Probable Negativo: (0.06, 0.15, -) (0.24, 0.23, -) (0.09, 0.11, -) (0.16, 0.15, -)
Positivo Positivo: (0.05, 3.75, +) (0.05, 1.56, +) (0.06 , 5.02, +) (0.08, 4.43, +)
Wobbler: (0.05, 0.29, -) (0.09, 0.68, +) (0.08, 0.31, -) (0.07, 0.28, -)

Lo positivo en la segunda prueba para el Wobbler es claramente una aberración, pero ¿cómo modelarías eso? Si bien una línea de mi pensamiento es estimar la "verdadera diferencia" entre TB y cero en cada punto de tiempo utilizando un modelo multinivel de medidas repetidas, se me ocurrió que lo que realmente quiero saber es si la respuesta de la persona es nula y la respuesta de TB se extraen de la misma distribución, o si su sistema inmunitario reconoce los antígenos de TB y se activa, produciendo una mayor respuesta.

En cuanto a lo que podría causar una prueba positiva además de la infección: no estoy seguro. Sospecho que generalmente es solo una variación dentro de la persona en los resultados, pero ciertamente existe la posibilidad de otros factores. Tenemos cuestionarios de cada momento, pero todavía no los he examinado demasiado.

* Datos fabricados pero ilustrativos

repeated-measures Matt Parker
fuente

Ah, y siéntase libre de volver a etiquetar: mi navegador no funciona con la sugerencia automática, por lo que me cuesta ver lo que hay ahí fuera.

Matt Parker

¿Su variable dependiente es continua o discreta? ¿O, tal vez, el resultado de la prueba subyacente es continuo y se convierte en una respuesta discreta (es decir, 'positiva', 'negativa') dependiendo de algún límite? ¿Podría aclarar también por qué un individuo pasaría de negativo a positivo a pesar de no estar expuesto a la TB? Un ejemplo específico (con algunos números incluidos) de tal cambio puede ayudar.

Los ejemplos son realmente útiles para visualizar los datos. Otra pregunta con respecto a su advertencia: "los valores se agrupan en el piso y el techo y que los datos no son normales". ¿Puede decirme si (a) los datos en el extremo inferior de la escala se ven normales y (b) los datos en el extremo superior de la escala se ven normales?

Nota: aparentemente no cumplí la fecha límite para otorgar la recompensa, así que estoy configurando otra para poder recompensar adecuadamente a Srikant por su ayuda. Siempre se aceptan más respuestas, pero la recompensa es para él.

Matt Parker, el

Respuestas:

Esta no es una respuesta completa, pero espero que le brinde algunas ideas sobre cómo modelar la situación de manera coherente.

Supuestos

Los valores en el extremo inferior de la escala siguen una distribución normal truncada desde abajo.
Los valores en el extremo superior de la escala siguen una distribución normal truncada desde arriba.

(Nota: Sé que usted dijo que los datos no son normales, pero supongo que se refiere a la distribución de todos los valores, mientras que los supuestos anteriores se refieren a los valores en el extremo inferior y superior de la escala).
El estado subyacente de una persona (ya sea que tenga TB o no) sigue una cadena de Markov de primer orden.

Modelo

Dejar:

$D_i(t)$ sea 1 si en el momento la persona tiene TB y 0 de lo contrario, $t$ $i^\mbox{th}$
$RTB_i(t)$ sea la respuesta de prueba a la prueba de TB en el momento de la persona , $t$ $i^\mbox{th}$
$RN_i(t)$ será la respuesta de prueba a la prueba NILL en el tiempo de la persona , $t$ $i^\mbox{th}$
$f(RN_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$
$f(RN_i(t) | D_i(t)=1) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$

Los puntos 4 y 5 capturan la idea de que la respuesta de una persona a la prueba NILL no depende del estado de la enfermedad.
$f(RTB_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RTB_i(t) > R_l)$
$f(RTB_i(t) | D_i(t)=1) \sim N(\mu_u,\sigma_u^2) I(RTB_i(t) < R_u)$
$\mu_u > \mu_l$

Los puntos 6, 7 y 8 capturan la idea de que la respuesta de una persona a la prueba de TB depende del estado de la enfermedad.
$p(t)$ sea la probabilidad de que una persona contraiga TB durante los 6 meses anteriores al tiempo dado que estuvo libre de enfermedad durante el período de prueba anterior. Por lo tanto, a la matriz de transición de estado le gustaría la siguiente: $t$

$\begin{bmatrix} 1-p(t) & p(t) \\ 0 & 1 \end{bmatrix}$

En otras palabras,

$Prob(D_i(t)=1 | D_i(t-1) = 0) = p(t)$

$Prob(D_i(t)=0 | D_i(t-1) = 0) = 1-p(t)$

$Prob(D_i(t)=1 | D_i(t-1) = 1) = 1$

$Prob(D_i(t)=0 | D_i(t-1) = 1) = 0$

Su criterio de prueba establece que:

$\hat{D}_i(t) = \begin{cases} 1, & RTB_i(t) - RN_i(t) \ge 0.35 \\ 0, & otherwise \end{cases}$

Sin embargo, como puede ver en la estructura del modelo, en realidad puede parametrizar los puntos de corte y cambiar todo el problema a lo que deberían ser sus puntos de corte para diagnosticar con precisión a los pacientes. Por lo tanto, el problema del wobbler parece ser más un problema con su elección de puntos de corte que con cualquier otra cosa.

Para elegir los puntos de corte 'correctos', puede tomar datos históricos sobre pacientes identificados definitivamente con TB y estimar los parámetros resultantes de la configuración anterior. Podría utilizar algunos criterios, como el número de pacientes correctamente clasificados como con tuberculosis o no como una métrica para identificar el "mejor" modelo. Para simplificar, se podría suponer que es un parámetro invariable en el tiempo que parece razonable en ausencia de epidemias, etc. $p(t)$

Espero que sea útil.

fuente

Gracias Srikant! Lo siento, de alguna manera me perdí tu comentario antes. El grupo superior es realmente solo un pico justo en el techo: no hay variabilidad allí, excepto por el largo tramo de uniformidad que lo une a la distribución inferior, que es básicamente como lo describe. Me tomará un tiempo analizar su respuesta (especialmente porque estoy atrapado en IE y no puedo ver LaTeX correctamente en este momento), pero realmente aprecio su dedicación a esta pequeña y extraña pregunta.

Matt Parker

¡Tricky Matt, como lo son muchos problemas de estadísticas del mundo real!

Comenzaría a definir las metas / objetivos de su estudio.

Sin conocer el verdadero estado de los sujetos, será difícil definir las distribuciones de probabilidad para las pruebas TB + y TB-. ¿Tiene preguntas sobre la infección previa de TB (o mejor, historias clínicas). También sigo probando TB + debido a una inmunización en la infancia, hace varias décadas, por lo que es necesario tener en cuenta las vacunas anteriores.

Me parece que su pregunta intrínseca es: ¿Las pruebas repetidas de TB afectan el resultado de la prueba?

Valdría la pena obtener una copia del Análisis de datos longitudinales de Peter Diggle .

Haga un análisis exploratorio de datos, en particular matrices de gráficos de dispersión de los resultados de la prueba nula en cada momento frente a la otra, y los resultados de la prueba de TB en cada momento frente a la otra; y las gráficas de dispersión TB vs cero (en cada momento). También tome las diferencias (prueba de TB - prueba de cero) y haga las matrices de diagrama de dispersión. Pruebe las transformaciones de los datos y vuelva a hacerlas. Me imagino que log (TB) - log (Nil) puede ayudar si los resultados de TB son muy grandes en relación con Nil. Busque relaciones lineales en la estructura de correlaciones.

Otro enfoque sería tomar el resultado de prueba definido (positivo / negativo) y modelarlo lógicamente utilizando un modelo de efectos mixtos no lineales (enlace logit). ¿Algunas personas cambian entre las pruebas de TB + a TB- y esto está relacionado con su prueba de cero, prueba de tuberculosis, TB - cero o alguna transformación de los resultados de la prueba?

Tilacoleo
fuente

Gracias por tu respuesta. En cuanto a no conocer el verdadero estado: tenemos cuestionarios extensos y somos conscientes del problema de la vacuna BCG con la prueba de la piel; de hecho, se supone que estos análisis de sangre resuelven ese problema porque usan un conjunto diferente de antígenos que el PPD que usted Estás acostumbrado. Sin embargo, esa es una pregunta casi por separado, y en la que vamos a trabajar un poco más tarde; en este momento, mi interés es hacer que esta prueba sea 'consciente desde hace mucho tiempo'.

Matt Parker

... especialmente porque algunas personas cambian de negativo a positivo, y eso es a menudo un producto de sus resultados típicos de cero y TB que producen pequeñas fluctuaciones: cero un poco, TB un poco, y de repente son positivos. Próxima prueba, han vuelto a ser negativos. Puedo ver eso mientras reviso los resultados individuales, pero no estoy seguro de cómo incorporar adecuadamente mi intuición en un modelo.

Matt Parker

Finalmente, aunque he intentado tomar los resultados del registro, eso no parece ser suficiente para acercarlos incluso a la normalidad. Son muy, muy sesgadas, y el truncamiento en el extremo superior complica aún más esto al agregar una notable mancha de densidad en el techo. Curiosamente, sin embargo, las distribuciones nulas y de resultados de TB en toda la muestra son bastante similares, con la única diferencia de que esa gota en el techo es mucho mayor para los resultados de TB.

Matt Parker

¡Gracias por tomarse el tiempo de leer y responder a esta bestia de preguntas!

Matt Parker