Mientras cursaba un curso de estadística para estudiantes de medicina, me encontré con un problema relacionado con las tasas de incidencia. El contexto del problema es un capítulo sobre la distribución de Poisson. En el problema, 2300 fumadores son seguidos durante un período de 1 año durante el cual 24 de ellos desarrollan cáncer de pulmón. Luego quieren calcular la tasa de incidencia del proceso y proceder de la siguiente manera:
Al principio, no entendía por qué restaban , pero supuse que era una corrección por el hecho de que, dado que esas 24 personas desarrollan el cáncer durante el año, su tiempo de riesgo es más corto que el de las personas que no desarrollan la enfermedad. No se proporcionó más información en el libro de texto en sí, al menos no en el problema. Una búsqueda rápida confirmó que estoy pensando en la línea correcta.
Pero todavía no entiendo la lógica de la fórmula. ¿Alguien puede iluminarme? Además, si se pudieran dar algunas referencias accesibles para estudiantes de medicina. No me importa tener más referencias técnicas también.
fuente
Respuestas:
Propongo modelar la aparición del cáncer como un proceso de Poisson. Son posibles múltiples eventos (aparición de tumores) dentro del mismo individuo durante el período de observación. Siλ es la tasa de aparición de tumores por año, la probabilidad de 0 eventos es mi- λ , y la probabilidad de 1 evento o más es p = 1 -mi- λ .
Siguesn individuos durante un año. El número de personas con 1 evento o más esX∼Bin(n,p) . El número esperado esE(X)=np=n(1−e−λ) .
Ahora observasx eventos y desea estimar λ . Primera estimaciónp^=xn , entonces λ^=−log(1−xn)≈xn+x22n2 . Por invariancia de estimadores de máxima verosimilitud,λ^ es el MLE de λ .
Tu estimador esx/n1−x/2n≈xn+x22n2 . La diferencia entre los dos estimadores es aproximadamentex3/6n3 , que es muy pequeño si x/n es pequeño. Supongo que esto proporciona alguna justificación, incluso si algún otro modelo podría conducir directamente a su estimador.
fuente
Suponiendo que los diagnósticos de cáncer se extiendan de manera uniforme durante todo el año, las personas diagnosticadas están expuestas al riesgo de ser diagnosticadas (en promedio) medio año antes de ese diagnóstico.
Su enlace menciona la suposición de ocurrencia en el punto medio del período de observación, pero no de dónde proviene, que es solo la suposición de uniformidad. Esta suposición no siempre es razonable, y hay momentos en que puede marcar una diferencia sustancial. Recomiendo conocer el supuesto cada vez que use la fórmula, ya que debe considerar su idoneidad y, si no es adecuado, si es probable que tenga un impacto sustancial en la estimación (en cuyo caso, un supuesto mejor sobre la ocurrencia debe ser investigado)
fuente