Tengo un conjunto de datos que contiene ~ 7.500 análisis de sangre de ~ 2.500 personas. Estoy tratando de averiguar si la variabilidad en los análisis de sangre aumenta o disminuye con el tiempo entre dos pruebas. Por ejemplo: extraigo su sangre para la prueba de referencia y luego extraigo inmediatamente una segunda muestra. Seis meses después, saco otra muestra. Uno podría esperar que la diferencia entre la línea de base y las pruebas de repetición inmediata sea menor que la diferencia entre la línea de base y la prueba de seis meses.
Cada punto en la gráfica a continuación refleja la diferencia entre dos pruebas. X es el número de días entre dos pruebas; Y es el tamaño de la diferencia entre las dos pruebas. Como puede ver, las pruebas no se distribuyen uniformemente a lo largo de X: el estudio no fue diseñado para abordar esta pregunta, realmente. Debido a que los puntos están muy apilados en la media, he incluido 95% (azul) y 99% (rojo) líneas cuantiles, basadas en ventanas de 28 días. Obviamente, estos se ven afectados por los puntos más extremos, pero se entiende la idea.
texto alternativo http://a.imageshack.us/img175/6595/diffsbydays.png
Me parece que la variabilidad es bastante estable. En todo caso, es mayor cuando la prueba se repite en un período corto, eso es terriblemente contradictorio. ¿Cómo puedo abordar esto de una manera sistemática, teniendo en cuenta la variación de n en cada punto de tiempo (y algunos períodos sin pruebas)? Tus ideas son muy apreciadas.
Solo como referencia, esta es la distribución del número de días entre prueba y prueba:
texto alternativo http://a.imageshack.us/img697/6572/testsateachtimepoint.png
fuente
Respuestas:
Según su descripción, no veo ninguna razón para distinguir la "prueba de referencia" de la "segunda muestra" inmediatamente dibujada. Son simplemente 2 mediciones de línea de base y la varianza (en la línea de base) se puede calcular sobre esa base. Sería mejor trazar la media de las dos mediciones de referencia frente a la tercera muestra de "seis meses".
El problema es con la muestra de 6 meses. Como solo se toma una muestra en este punto, no hay forma de estimar la "variabilidad" en este punto, o más bien separar la variación de muestreo del cambio longitudinal (real) en la lectura de TB.
Si consideramos que este es un problema de análisis de datos longitudinales, probablemente elegiríamos una intercepción aleatoria (TB basal) y una pendiente aleatoria (para ajustarse a la TB de 6 meses). La variabilidad del muestreo se estimaría a partir de las dos mediciones de referencia y la pendiente a partir de la tercera medición de 6 meses. No podemos estimar la variabilidad a los 6 meses sin suposiciones de distribución sólidas en el chnage durante esos seis meses, como asumir que no hay cambio.
fuente