Tengo los resultados de una prueba de sangre administrada a 2500 personas cuatro veces a intervalos de seis meses. Los resultados consisten principalmente en dos medidas de respuesta inmune: una en presencia de ciertos antígenos de tuberculosis y otra en ausencia. Actualmente, cada prueba se evalúa como positiva o negativa en función de la diferencia entre la respuesta al antígeno y la respuesta nula (con la idea de que si su sistema inmunitario responde a los antígenos de la TB, es probable que haya estado expuesto a la bacteria en algún momento) ) En esencia, la prueba supone que las distribuciones de un individuo no expuesto de respuestas nulas y de TB deben ser básicamente idénticas, mientras que una persona con exposición a TB tendrá respuestas de TB de una distribución diferente (de valores más altos). Consideración: las respuestas son muy, muy no normales, y los valores se agrupan tanto en el piso natural como en el techo truncado por instrumentos.
Sin embargo, parece bastante claro en esta configuración longitudinal que estamos obteniendo "falsos positivos" (no hay un estándar de oro real para la tuberculosis latente, me temo) que son causados por fluctuaciones (típicamente pequeñas) en el antígeno y respuestas nulas. Si bien esto puede ser difícil de evitar en algunas situaciones (es posible que solo tenga una oportunidad de evaluar a alguien), hay muchas situaciones en las que a las personas se les realizan pruebas de detección de tuberculosis de forma rutinaria cada año más o menos; en los EE. UU. los militares, las personas sin hogar que se alojan en refugios, etc. Parece una pena ignorar los resultados de las pruebas anteriores porque los criterios existentes resultan ser transversales.
Yo creo que lo que me gustaría hacer es lo que crudamente conciben como el análisis de mezclas longitudinal. Al igual que los criterios transversales, me gustaría poder estimar la probabilidad de que las respuestas de TB y nulas de un individuo se extraigan de la misma distribución, pero que esa estimación incorpore resultados de pruebas anteriores, así como información de la muestra como un todo (p. ej., ¿puedo usar la distribución de toda la muestra de las variabilidades dentro de cada individuo para mejorar mis estimaciones de la distribución de nulo o TB de un individuo específico?). La probabilidad estimada necesitaría poder cambiar con el tiempo, por supuesto, para tener en cuenta la posibilidad de una nueva infección.
Me he vuelto totalmente loco tratando de pensar en esto de maneras inusuales, pero siento que esta conceptualización es tan buena como cualquiera que se me ocurra. Si algo no tiene sentido, no dude en solicitar una aclaración. Si mi comprensión de la situación parece incorrecta, no dude en decirme. Muchas gracias por tu ayuda.
En respuesta a Srikant: Es un caso de clasificación latente (infectada o no con TB) usando los dos resultados de prueba continuos (pero no normales y truncados). En este momento, esa clasificación se realiza utilizando un punto de corte (en su forma simplificada, TB - nulo> .35 -> positivo). Con los resultados de la prueba presentados como (nulo, TB, resultado), los arquetipos básicos * son:
Probable Negativo: (0.06, 0.15, -) (0.24, 0.23, -) (0.09, 0.11, -) (0.16, 0.15, -)
Positivo Positivo: (0.05, 3.75, +) (0.05, 1.56, +) (0.06 , 5.02, +) (0.08, 4.43, +)
Wobbler: (0.05, 0.29, -) (0.09, 0.68, +) (0.08, 0.31, -) (0.07, 0.28, -)
Lo positivo en la segunda prueba para el Wobbler es claramente una aberración, pero ¿cómo modelarías eso? Si bien una línea de mi pensamiento es estimar la "verdadera diferencia" entre TB y cero en cada punto de tiempo utilizando un modelo multinivel de medidas repetidas, se me ocurrió que lo que realmente quiero saber es si la respuesta de la persona es nula y la respuesta de TB se extraen de la misma distribución, o si su sistema inmunitario reconoce los antígenos de TB y se activa, produciendo una mayor respuesta.
En cuanto a lo que podría causar una prueba positiva además de la infección: no estoy seguro. Sospecho que generalmente es solo una variación dentro de la persona en los resultados, pero ciertamente existe la posibilidad de otros factores. Tenemos cuestionarios de cada momento, pero todavía no los he examinado demasiado.
* Datos fabricados pero ilustrativos
fuente
Respuestas:
Esta no es una respuesta completa, pero espero que le brinde algunas ideas sobre cómo modelar la situación de manera coherente.
Supuestos
Los valores en el extremo inferior de la escala siguen una distribución normal truncada desde abajo.
Los valores en el extremo superior de la escala siguen una distribución normal truncada desde arriba.
(Nota: Sé que usted dijo que los datos no son normales, pero supongo que se refiere a la distribución de todos los valores, mientras que los supuestos anteriores se refieren a los valores en el extremo inferior y superior de la escala).
El estado subyacente de una persona (ya sea que tenga TB o no) sigue una cadena de Markov de primer orden.
Modelo
Dejar:
Los puntos 4 y 5 capturan la idea de que la respuesta de una persona a la prueba NILL no depende del estado de la enfermedad.
Los puntos 6, 7 y 8 capturan la idea de que la respuesta de una persona a la prueba de TB depende del estado de la enfermedad.
En otras palabras,
Su criterio de prueba establece que:
Sin embargo, como puede ver en la estructura del modelo, en realidad puede parametrizar los puntos de corte y cambiar todo el problema a lo que deberían ser sus puntos de corte para diagnosticar con precisión a los pacientes. Por lo tanto, el problema del wobbler parece ser más un problema con su elección de puntos de corte que con cualquier otra cosa.
Para elegir los puntos de corte 'correctos', puede tomar datos históricos sobre pacientes identificados definitivamente con TB y estimar los parámetros resultantes de la configuración anterior. Podría utilizar algunos criterios, como el número de pacientes correctamente clasificados como con tuberculosis o no como una métrica para identificar el "mejor" modelo. Para simplificar, se podría suponer que es un parámetro invariable en el tiempo que parece razonable en ausencia de epidemias, etc.p(t)
Espero que sea útil.
fuente
¡Tricky Matt, como lo son muchos problemas de estadísticas del mundo real!
Comenzaría a definir las metas / objetivos de su estudio.
Sin conocer el verdadero estado de los sujetos, será difícil definir las distribuciones de probabilidad para las pruebas TB + y TB-. ¿Tiene preguntas sobre la infección previa de TB (o mejor, historias clínicas). También sigo probando TB + debido a una inmunización en la infancia, hace varias décadas, por lo que es necesario tener en cuenta las vacunas anteriores.
Me parece que su pregunta intrínseca es: ¿Las pruebas repetidas de TB afectan el resultado de la prueba?
Valdría la pena obtener una copia del Análisis de datos longitudinales de Peter Diggle .
Haga un análisis exploratorio de datos, en particular matrices de gráficos de dispersión de los resultados de la prueba nula en cada momento frente a la otra, y los resultados de la prueba de TB en cada momento frente a la otra; y las gráficas de dispersión TB vs cero (en cada momento). También tome las diferencias (prueba de TB - prueba de cero) y haga las matrices de diagrama de dispersión. Pruebe las transformaciones de los datos y vuelva a hacerlas. Me imagino que log (TB) - log (Nil) puede ayudar si los resultados de TB son muy grandes en relación con Nil. Busque relaciones lineales en la estructura de correlaciones.
Otro enfoque sería tomar el resultado de prueba definido (positivo / negativo) y modelarlo lógicamente utilizando un modelo de efectos mixtos no lineales (enlace logit). ¿Algunas personas cambian entre las pruebas de TB + a TB- y esto está relacionado con su prueba de cero, prueba de tuberculosis, TB - cero o alguna transformación de los resultados de la prueba?
fuente