Estimador para una tasa de incidencia

8

Mientras cursaba un curso de estadística para estudiantes de medicina, me encontré con un problema relacionado con las tasas de incidencia. El contexto del problema es un capítulo sobre la distribución de Poisson. En el problema, 2300 fumadores son seguidos durante un período de 1 año durante el cual 24 de ellos desarrollan cáncer de pulmón. Luego quieren calcular la tasa de incidencia del proceso y proceder de la siguiente manera:

Incidence rate=24230024/2

Al principio, no entendía por qué restaban 24/2, pero supuse que era una corrección por el hecho de que, dado que esas 24 personas desarrollan el cáncer durante el año, su tiempo de riesgo es más corto que el de las personas que no desarrollan la enfermedad. No se proporcionó más información en el libro de texto en sí, al menos no en el problema. Una búsqueda rápida confirmó que estoy pensando en la línea correcta.

Pero todavía no entiendo la lógica de la fórmula. ¿Alguien puede iluminarme? Además, si se pudieran dar algunas referencias accesibles para estudiantes de medicina. No me importa tener más referencias técnicas también.

Raskolnikov
fuente
1
No entiendo completamente tu pregunta, ¿puedes desarrollarla un poco más? Las tasas de incidencia son solo eso, tasas y, por lo tanto, el tiempo de la persona está "expuesto" en el denominador. Tiene razón sobre el 24/2, que refleja la suposición de que las personas que desarrollan cáncer de pulmón lo hicieron en el punto medio del intervalo y, por lo tanto, los censura a los 6 meses. Por el contrario, puede estimar una razón de prevalencia (24/2300), pero una prevalencia es una función de la incidencia y la duración de la enfermedad, por lo tanto, es menos útil si está interesado en identificar las causas de la enfermedad.
DL Dahly
Pero, ¿por qué está bien esta suposición?
Raskolnikov
Solo porque es una suposición mejor que censurar a los 3 o 9 meses, por ejemplo. A menos que haya tenido algún tipo de efecto estacional, o algo similar, su mejor estimación es el punto medio del intervalo. La única forma de mejorar esto es recopilar sus datos a una resolución temporal más alta.
DL Dahly

Respuestas:

6

Propongo modelar la aparición del cáncer como un proceso de Poisson. Son posibles múltiples eventos (aparición de tumores) dentro del mismo individuo durante el período de observación. Siλ es la tasa de aparición de tumores por año, la probabilidad de 0 eventos es eλ, y la probabilidad de 1 evento o más es p=1eλ.

Sigues nindividuos durante un año. El número de personas con 1 evento o más esXBin(n,p). El número esperado esE(X)=np=n(1eλ).

Ahora observas x eventos y desea estimar λ. Primera estimaciónp^=xn, entonces λ^=log(1xn)xn+x22n2. Por invariancia de estimadores de máxima verosimilitud,λ^ es el MLE de λ.

Tu estimador es x/n1x/2nxn+x22n2. La diferencia entre los dos estimadores es aproximadamentex3/6n3, que es muy pequeño si x/nes pequeño. Supongo que esto proporciona alguna justificación, incluso si algún otro modelo podría conducir directamente a su estimador.

Elvis
fuente
44
@Raskolnikov y Elvis (+1), tenga en cuenta también que las fracciones continuas estándar para log(1z) truncado en el segundo rendimiento convergente log(1z)z/(1z/2) y esta aproximación siempre es mejor que la expansión de la serie Taylor de segundo orden para el rango de zde interés.
cardenal
De hecho, hice la misma desrtivación pero cometí un error al igualar p con eλ. Es por eso que no pude averiguar el enlace con el otro estimador.
Raskolnikov
@Raskolnikov Le agradezco esta buena pregunta que lleva a un buen ejercicio para mis alumnos;) también un pseudo agradable
Elvis
@cardinal y bonita edición!
Elvis
3

Suponiendo que los diagnósticos de cáncer se extiendan de manera uniforme durante todo el año, las personas diagnosticadas están expuestas al riesgo de ser diagnosticadas (en promedio) medio año antes de ese diagnóstico.

Su enlace menciona la suposición de ocurrencia en el punto medio del período de observación, pero no de dónde proviene, que es solo la suposición de uniformidad. Esta suposición no siempre es razonable, y hay momentos en que puede marcar una diferencia sustancial. Recomiendo conocer el supuesto cada vez que use la fórmula, ya que debe considerar su idoneidad y, si no es adecuado, si es probable que tenga un impacto sustancial en la estimación (en cuyo caso, un supuesto mejor sobre la ocurrencia debe ser investigado)

Glen_b -Reinstate a Monica
fuente
Entonces, ¿eso es todo? ¿Asunción de uniformidad? Pero, ¿por qué importaría la uniformidad de los diagnósticos? ¿Por qué no la probabilidad de contraer la enfermedad, que supongo que probablemente estaría distribuida por Poisson (al menos como un modelo nulo)?
Raskolnikov
El supuesto de uniformidad es de dónde viene, así que sí, eso es todo; en ausencia de otra información (y a veces incluso en presencia de ella) es una suposición común al calcular la exposición al riesgo. En cuanto al bit sobre el diagnóstico, supuse que los datos son sobre diagnóstico, no incidencia, porque no observamos incidencia no diagnosticada; lo que se analiza es a lo que se debe aplicar la suposición.
Glen_b -Reinstale a Monica el
Para ser más explícito, su enlace menciona que la fórmula proviene del 'método actuarial'. El material actuarial relevante son los elementos de exposición al riesgo que son bastante estándar en todos los programas actuariales que conozco. Ese supuesto específico de uniformidad no es algo que acabo de inventar, es absolutamente explícito en la formación actuarial. Usted preguntó de dónde viene; el enlace menciona el método actuarial; que a su vez surge del enfoque actuarial estándar para los expuestos al riesgo.
Glen_b: reinstala a Mónica el