Estimación de ML de distribución exponencial (con datos censurados)

9

En el Análisis de supervivencia, se supone que el tiempo de supervivencia de un rv Xi se distribuye exponencialmente. Considerando ahora que tengo "resultados" de iid rv's . De hecho, solo una parte de estos resultados está "plenamente realizada", es decir, las observaciones restantes aún están "vivas".x1,,xnXi

Si quisiera realizar una estimación ML para el parámetro de tasa de la distribución, ¿cómo puedo utilizar las observaciones no realizadas de manera coherente / apropiada? Creo que todavía contienen información útil para la estimación.λ

¿Podría alguien guiarme a la literatura sobre este tema? Estoy seguro de que existe. Sin embargo, tengo problemas para encontrar buenas palabras clave / términos de búsqueda para el tema.

Buen chico mike
fuente
3
Entonces, usted dice que de las variables aleatorias de las cuales tiene una medición, digamos que n 1 < n observaciones representan duraciones de vida "finalizadas" (porque las variables aleatorias asociadas estaban "muertas" en el momento de la medición), mientras que el resto n 2 < n observaciones son longitudes de supervivencia de variables aleatorias que estaban "todavía vivas" en el momento de la medición? ( n 1 + n 2 = n )nn1<nn2<nn1+n2=n
Alecos Papadopoulos
1
Este es un modelo truncado, las variables aleatorias "vivas" se truncan en el momento en que se detiene la observación.
Xi'an
1
Consulte los modelos de Tobit para obtener datos truncados y fuentes relacionadas (por ejemplo, aquí ).
Richard Hardy
2
Parece que tiene datos censurados, como vidas, donde algunas personas murieron, pero algunas todavía están vivas, por lo que solo sabe que, digamos, para alguna constante conocida t i . Xyo>tyotyo
kjetil b halvorsen
3
Tenga cuidado con la diferencia a veces sutil entre las dos situaciones. No es raro que el truncamiento se confunda con la censura, y viceversa.
Alecos Papadopoulos

Respuestas:

16

Todavía puede estimar los parámetros utilizando la probabilidad directamente. Deje que las observaciones sean con la distribución exponencial con tasa λ > 0 y desconocida. La función de densidad es f ( x ; λ ) = λ e - λ x , función de distribución acumulativa F ( x ; λ ) = 1 - e - λ x y función de cola G ( x ; λx1,,xnorteλ>0 0f(x;λ)=λmi-λXF(X;λ)=1-mi-λX . Suponga que las primeras r observaciones se observan completamente, mientras que para x r + 1 , ... , x n solo sabemos que x j > t j para algunas constantes positivas conocidas t j . Como siempre, la probabilidad es la "probabilidad de los datos observados", para las observaciones censuradas, que viene dada por P ( X j > t jsol(X;λ)=1-F(X;λ)=mi-λXrXr+1,...,XnorteXj>tjtj , entonces la función de verosimilitud completa es L ( λ ) = r i = 1 f ( x i ; λ ) n i = r + 1 G ( t j ; λ ) La función de verosimilitud se convierte en l ( λ ) = r log λ 1 + + x r + t r + 1PAG(Xj>tj)=sol(tj;λ)

L(λ)=yo=1rF(Xyo;λ)yo=r+1nortesol(tj;λ)
que tiene la misma forma que la verosimilitud para el caso habitual, completamente observado, excepto desde el primer término r log λ en lugar de n log λ . Escribiendo T para la media de las observaciones y los tiempos de la censura, el estimador de máxima verosimilitud de λ se convierte en λ = r
l(λ)=rIniciar sesiónλ-λ(X1++Xr+tr+1++tnorte)
rIniciar sesiónλnorteIniciar sesiónλTλ , que usted mismo puede comparar con el caso completamente observado.λ^=rnorteT
 EDIT   

r=0 0

l(λ)=-norteTλ
λλ=0 0λλ basado en esa función de verosimilitud? Para eso, mira a continuación.

Pero, en cualquier caso, la conclusión real de los datos en ese caso es que deberíamos esperar más tiempo hasta que tengamos algunos eventos ...

λmi-λnorteTpagnortepag[pag¯,1]λIniciar sesiónpag=-λT .

pag

PAG(X=norte)=pagnorte0,95    (decir)
norteIniciar sesiónpagIniciar sesión0,95λ
λ-Iniciar sesión0,95norteT.
kjetil b halvorsen
fuente
1
Xj>tj