Tengo los siguientes datos simulados de 2500 personas sobre la incidencia de una enfermedad rara durante 20 años.
year number_affected
1 0
2 0
3 1
4 0
5 0
6 0
7 1
8 0
9 1
10 0
11 1
12 0
13 0
14 1
15 1
16 0
17 1
18 0
19 2
20 1
¿Qué prueba puedo aplicar para demostrar que la enfermedad se está volviendo más común?
Editar: como lo sugirió @Wrzlprmft Intenté una correlación simple usando Spearman y también los métodos de Kendall:
Spearman's rank correlation rho
data: year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho
0.3989206
Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
Cannot compute exact p-value with ties
>
Kendall's rank correlation tau
data: year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
tau
0.3296319
Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
Cannot compute exact p-value with ties
¿Son estos suficientemente buenos para este tipo de datos? La prueba de Mann Kendall usando el método mostrado por @AWebb da un valor P de [1] 0.04319868. La regresión de Poisson sugerida por @dsaxton da el siguiente resultado:
Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.3187 -0.8524 -0.6173 0.5248 1.2158
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.79664 0.85725 -2.096 0.0361 *
year 0.09204 0.05946 1.548 0.1217
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 16.636 on 19 degrees of freedom
Residual deviance: 14.038 on 18 degrees of freedom
AIC: 36.652
Number of Fisher Scoring iterations: 5
El componente del año aquí no es significativo. ¿Qué puedo concluir finalmente? Además, en todos estos análisis, el número 2500 (denominador número de población) no se ha utilizado. ¿Ese número no hace la diferencia? ¿Podemos usar la regresión lineal simple (gaussiana) usando la incidencia (número_afectado / 2500) versus año?
drop1(fit, test="LRT")
para hacer una prueba de razón de probabilidad, en lugar de hacer una prueba asintótica z en la estadística de Poisson. (Al hacerlo, obtendrá un valor p de 0.107, por lo que aún no es estadísticamente significativo). No es necesario incluir el número de población en la regresión si es el mismo para cada año. Entonces solo juega el papel de un factor de escala. Pero usted debe incluirlo (con valores de la población por año), ya que la población en riesgo, probablemente no varía a lo largo de los veinte años. Solo agrégalooffset=log(pop_at_risk)
a laglm
llamada.Respuestas:
Puede usar la prueba no paramétrica de Mann-Kendall . Para estos datos de muestra,
cases
y la hipótesis nula unilateral de que no hay una tendencia creciente, puede implementar lo siguiente enr.Y rechazar al nivel del 5% a favor de una tendencia creciente.
fuente
Podría ajustarse a un modelo de regresión muy simple que consta solo de un componente de intercepción y tiempo y probar la "importancia" del componente de tiempo. Por ejemplo, puede modelar Poisson donde es el número de ocurrencias en el año y y verificar si .Yt∼ (λt) Yt t log(λt)=α+βt β>0
fuente
Simplemente verifique si su número de casos nuevos (es decir,
number_affected
) está significativamente correlacionado con el tiempo (es decir,year
). Como cualquier posible dependencia lineal de la tasa de eventos al menos está distorsionada a la discretización observacional, desea utilizar un coeficiente de correlación basado en el rango, por ejemplo, τ de Kendall o ρ de Spearman.fuente