Estoy tratando de lidiar con un análisis de tiempo hasta el evento utilizando resultados binarios repetidos. Supongamos que el tiempo hasta el evento se mide en días, pero por el momento discretizamos el tiempo en semanas. Quiero aproximar un estimador de Kaplan-Meier (pero permitir covariables) usando resultados binarios repetidos. Esto parecerá un camino indirecto, pero estoy explorando cómo esto se extiende a los resultados ordinales y los eventos recurrentes.
Si crea una secuencia binaria que se parece a 000 para alguien censurado a las 3 semanas, 0000 para alguien censurado a 4w, y 0000111111111111 ... para un sujeto que falló a 5w (los 1 se extienden hasta el punto en que el último sujeto fue censurado) seguido en el estudio), cuando calcula proporciones de 1s específicas de la semana, puede obtener incidencias acumulativas ordinarias (hasta llegar a tiempos de censura variables, donde esto solo se aproxima pero no es igual a las estimaciones de incidencia acumulada de Kaplan-Meier).
Puedo ajustar las observaciones binarias repetidas con un modelo logístico binario usando GEE, en lugar de hacer que el tiempo sea discreto como se indicó anteriormente, pero en su lugar usando una spline en el tiempo. El estimador de covarianza de sándwich en racimo funciona razonablemente bien. Pero me gustaría obtener una inferencia más exacta utilizando un modelo de efectos mixtos. El problema es que los 1 después del primero son redundantes. ¿Alguien sabe de una manera de especificar efectos aleatorios o especificar un modelo que tenga en cuenta las redundancias para que los errores estándar no se desinflen?
Tenga en cuenta que esta configuración difiere de la de Efron porque estaba usando modelos logísticos para estimar las probabilidades condicionales en conjuntos de riesgo. Estoy estimando probabilidades incondicionales.
fuente
GLMMadaptive
paquete se ve excelente para la configuración más general.Un par de pensamientos sobre esto:
Parece que un modelo de efectos mixtos es fundamentalmente un modelo de probabilidad 'condicional', es decir, cuál es la probabilidad de un evento para un sujeto que está en riesgo de ese evento.
Sabemos que la probabilidad de un '1' después del primer '1' es uno. Por lo tanto, no hay información adicional en los valores '1' posteriores.
Parece que, debido a que los valores '1' posteriores no contienen información adicional, no deberían tener impacto en la función de probabilidad y, por lo tanto, no tienen ningún impacto en los errores estándar de los estimadores basados en la probabilidad, ni en las propias estimaciones. De hecho, no habría impacto de los valores '1' posteriores si p (y = '1' | x) = 1 independientemente de los valores de los parámetros del modelo, como debería ser.
Podríamos ser capaces de forzar este comportamiento (es decir, p (y = '1' | x) = 1) y retener la función media deseada, agregando una covariable de indicador al modelo que marque las siguientes, y forzando su coeficiente ser muy grande para que efectivamente p (y = '1' | x) = 1.
Como mencionó, también puede haber una manera de forzar que el primer '1' y las respuestas posteriores tengan una correlación del 100%. Pero en un modelo binomial, eso es lo mismo que p (y = '1' | x) = 1 para las respuestas posteriores.
fuente
No estoy exactamente seguro de lo que está tratando de hacer, pero ¿puede encajar en un modelo de regresión logística ( https://www.ncbi.nlm.nih.gov/pubmed/2281238 )? En este caso, solo incluiría 1 durante el intervalo del evento terminal; no se repetirá después de que se haya producido el evento. Incluiría el tiempo en el modelo de manera flexible (p. Ej., Expandido usando splines).
fuente