Tengo los siguientes datos, que representan el estado binario de cuatro sujetos en cuatro ocasiones, tenga en cuenta que solo es posible para cada sujeto a la transición pero no 1 → 0 :
testdata <- data.frame(id = c(1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4),
day = c(1,1,1,1,8,8,8,8,16,16,16,16,24,24,24,24,32,32,32,32),
obs = c(0,0,0,0,0,1,0,0,0,1,1,0,0,1,1,1,1,1,1,1))
Puedo modelarlo con una regresión logística:
testmodel <- glm(formula(obs~day, family=binomial), data=testdata)
> summary(testmodel)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.018890 0.148077 -0.128 0.899907
day 0.032030 0.007555 4.240 0.000493 ***
Primero, ¿cómo puedo explicar las medidas repetidas en el mismo individuo dentro del modelo?
En segundo lugar, ¿cómo puedo estimar, con incertidumbre, el día en que la mitad de los sujetos habrán realizado la transición de ?
logistic
censoring
interval-censoring
David LeBauer
fuente
fuente
Respuestas:
Como se hizo evidente en los comentarios a la pregunta, los datos consisten en solo cuatro observaciones del tiempo hasta la explosión. (Sería un error analizarlos como si fueran 16 valores independientes). Consisten en intervalos de tiempos en lugar de tiempos exactos:
Hay varios enfoques que uno podría tomar. Una muy atractiva y muy general es tomar estos intervalos en su palabra: el verdadero momento de la explosión de brotes podría ser cualquier cosa dentro de cada intervalo. Por lo tanto, se nos lleva a representar la "incertidumbre" en dos formas separadas: incertidumbre de muestreo (presumiblemente tenemos una muestra representativa de la especie este año) e incertidumbre de observación (reflejada por los intervalos).
La incertidumbre de muestreo se maneja con técnicas estadísticas familiares: se nos pide que calculemos la mediana y podemos hacerlo de varias maneras, dependiendo de los supuestos estadísticos, y podemos proporcionar intervalos de confianza para la estimación. Por simplicidad, supongamos que el tiempo para estallar brotes tiene una distribución simétrica. Debido a que es (presumiblemente) no negativo, esto implica que tiene una varianza y también sugiere que la media de incluso solo cuatro observaciones puede estar aproximadamente distribuida normalmente. Además, la simetría implica que podemos usar la media como un sustituto de la mediana (que se busca en la pregunta original). Esto nos da acceso a métodos estándar, simples, estimados e intervalos de confianza.
Esto representa un intervalo completo de estimaciones: ¡un resultado apropiado de un cálculo con entradas de intervalo!
(¡ese es un intervalo de números que representa un intervalo valorado en ucl, no un intervalo de confianza!) y, para el límite de confianza inferior,
En palabras, podríamos decir que
Lo que hay que hacer de esto es un asunto de contemplación individual y depende de la aplicación. Si se quiere estar razonablemente seguro de que el brote ocurre antes de los 40 días, entonces este resultado proporciona cierta satisfacción ( condicionalmente en los supuestos sobre la distribución del brote y la independencia de las observaciones ). Si se quiere estimar la explosión de brotes al día más cercano, entonces claramente se necesitan más datos. En otras circunstancias, esta conclusión estadística en términos de límites de confianza con valores de intervalo puede ser frustrante. Por ejemplo, ¿qué tan seguros podemos estar de que el brote se produce en el 50% de las muestras antes de los 30 días? Es difícil de decir, porque las respuestas serán intervalos.
Hay otras formas de manejar este problema. Estoy especialmente a favor de usar métodos de máxima verosimilitud. (Para aplicarlos aquí, necesitaríamos saber más sobre cómo se establecieron los puntos de corte del intervalo. Importa si se determinaron independientemente de los datos o no). La presente pregunta parece ser una buena oportunidad para introducir métodos basados en intervalos porque no parecen ser bien conocidos, aunque en ciertas disciplinas (evaluación de riesgos y análisis de algoritmos) algunas personas los han recomendado calurosamente.
fuente
Aquí hay un enfoque simple que no usa regresión logística, pero intenta usar las sugerencias anteriores. El cálculo de las estadísticas de resumen supone, quizás ingenuamente, que la fecha se distribuye normalmente.
Por favor, perdone el código no elegante
escriba una función para estimar el día del brote para cada individuo: use el día del año a mitad de camino entre la última observación de 0 y la primera observación de 1 para cada individuo.
Calcular estadísticas resumidas
fuente
id=1
Resultado (repetido):
Por lo tanto, una aproximación con un intervalo de confianza del 95% de esta mediana es 16 (5 - 28).
EDITAR: Vea el comentario de whuber sobre la limitación de este método cuando el número de observaciones es pequeño (incluyendo n = 4 en sí).
fuente
Puede usar un modelo de riesgo de tiempo discreto ajustado con regresión logística (usando un conjunto de datos de período de persona). Consulte Análisis de datos longitudinales aplicados: software y capítulos de libro 10-12.
Allison también discute
Sin embargo, su conjunto de datos es pequeño.
fuente
Suponiendo que tendrá más datos de la misma estructura, podrá utilizar el método actuarial (tabla de vida) para estimar la supervivencia media.
fuente