Prueba estadística para aumentar la incidencia de un evento raro

Tengo los siguientes datos simulados de 2500 personas sobre la incidencia de una enfermedad rara durante 20 años.

year number_affected
1   0
2   0
3   1
4   0
5   0
6   0
7   1
8   0
9   1
10  0
11  1
12  0
13  0
14  1
15  1
16  0
17  1
18  0
19  2
20  1

¿Qué prueba puedo aplicar para demostrar que la enfermedad se está volviendo más común?

Editar: como lo sugirió @Wrzlprmft Intenté una correlación simple usando Spearman y también los métodos de Kendall:

        Spearman's rank correlation rho

data:  year and number_affected
S = 799.44, p-value = 0.08145
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.3989206 

Warning message:
In cor.test.default(year, number_affected, method = "spearman") :
  Cannot compute exact p-value with ties
> 



        Kendall's rank correlation tau

data:  year and number_affected
z = 1.752, p-value = 0.07978
alternative hypothesis: true tau is not equal to 0
sample estimates:
      tau 
0.3296319 

Warning message:
In cor.test.default(year, number_affected, method = "kendall") :
  Cannot compute exact p-value with ties

¿Son estos suficientemente buenos para este tipo de datos? La prueba de Mann Kendall usando el método mostrado por @AWebb da un valor P de [1] 0.04319868. La regresión de Poisson sugerida por @dsaxton da el siguiente resultado:

Call:
glm(formula = number_affected ~ year, family = poisson, data = mydf)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.3187  -0.8524  -0.6173   0.5248   1.2158  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -1.79664    0.85725  -2.096   0.0361 *
year         0.09204    0.05946   1.548   0.1217  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for poisson family taken to be 1)

    Null deviance: 16.636  on 19  degrees of freedom
Residual deviance: 14.038  on 18  degrees of freedom
AIC: 36.652

Number of Fisher Scoring iterations: 5

El componente del año aquí no es significativo. ¿Qué puedo concluir finalmente? Además, en todos estos análisis, el número 2500 (denominador número de población) no se ha utilizado. ¿Ese número no hace la diferencia? ¿Podemos usar la regresión lineal simple (gaussiana) usando la incidencia (número_afectado / 2500) versus año?

time-series hypothesis-testing trend rnso
fuente

Algunos recursos que pueden resultarle útiles: el Servicio Geológico de EE. UU. Ha publicado un libro de texto en línea, Métodos estadísticos en recursos hídricos . El capítulo sobre análisis de tendencias, aquí , cubre cosas como la prueba de Mann-Kendal y cuándo preferiría realizar un análisis de regresión. También muestra cómo lidiar con la estacionalidad, que podría ser relevante para usted si sus datos fueran trimestrales en lugar de anuales.

Silverfish

Curiosamente, la implementación de Scipy de la τ de Kendall produce el mismo coeficiente pero un valor p drásticamente diferente , es decir, 0.042.

Wrzlprmft

Con respecto al modelo de Poisson, en su lugar usaría drop1(fit, test="LRT")para hacer una prueba de razón de probabilidad, en lugar de hacer una prueba asintótica z en la estadística de Poisson. (Al hacerlo, obtendrá un valor p de 0.107, por lo que aún no es estadísticamente significativo). No es necesario incluir el número de población en la regresión si es el mismo para cada año. Entonces solo juega el papel de un factor de escala. Pero usted debe incluirlo (con valores de la población por año), ya que la población en riesgo, probablemente no varía a lo largo de los veinte años. Solo agrégalo offset=log(pop_at_risk)a la glmllamada.

Karl Ove Hufthammer

Respuestas:

Puede usar la prueba no paramétrica de Mann-Kendall . Para estos datos de muestra, casesy la hipótesis nula unilateral de que no hay una tendencia creciente, puede implementar lo siguiente enr.

> n<-length(cases)
> d<-outer(cases,cases,"-")
> s<-sum(sign(d[lower.tri(d)]))
> ties<-table(cases)
> v<-1/18*(n*(n-1)*(2*n+5)-sum(ties*(ties-1)*(2*ties+5)))
> t<-sign(s)*(abs(s)-1)/sqrt(v)
> 1-pnorm(t)
[1] 0.04319868

Y rechazar al nivel del 5% a favor de una tendencia creciente.

A. Webb
fuente

¿Sabes si hay alguna diferencia entre la prueba de Mann-Kendall y la prueba de significación normal para el τ de Kendall? ¿O es la prueba de Mann-Kendall incluso la forma normal de obtener valores de significación para el τ de Kendall? Al menos las estadísticas de la prueba solo difieren en un factor de normalización que solo depende de la longitud de la serie de tiempo:

S = \frac{1}{2} n (n - 1) τ .

$S = \tfrac{1}{2} n (n-1) τ.$

Wrzlprmft

@Wrzlprmft Esta es la prueba de significación de aproximación normal típica en presencia de vínculos. El artículo de Wikipedia tiene buena información / referencias para los diversos ajustes necesarios para tener en cuenta los vínculos.

A. Webb

Podría ajustarse a un modelo de regresión muy simple que consta solo de un componente de intercepción y tiempo y probar la "importancia" del componente de tiempo. Por ejemplo, puede modelar Poisson donde es el número de ocurrencias en el año y y verificar si . $Y_t \sim$ $(\lambda_t)$ $Y_t$ $t$ $\log(\lambda_t) = \alpha + \beta t$ $\beta > 0$

dsaxton
fuente

Estoy de acuerdo en que la regresión de Poisson es apropiada. Y si uno tuviera más datos, incluso podría ajustarse a la tasa de incidencia (log) como una función no lineal del tiempo. Una ventaja adicional de la regresión de Poisson es que es fácil tener en cuenta el número de personas en riesgo . Y cuando uno está lidiando con el tiempo, esto es especialmente importante, ya que la tendencia (posible) de incidencia que estamos viendo puede ser solo el efecto de una población en riesgo creciente, no una tasa de incidencia creciente . (Por ejemplo, la población mundial ha aumentado en una cuarta parte en los últimos veinte años)

Karl Ove Hufthammer

Simplemente verifique si su número de casos nuevos (es decir, number_affected) está significativamente correlacionado con el tiempo (es decir, year). Como cualquier posible dependencia lineal de la tasa de eventos al menos está distorsionada a la discretización observacional, desea utilizar un coeficiente de correlación basado en el rango, por ejemplo, τ de Kendall o ρ de Spearman.

Wrzlprmft
fuente

En realidad quise decir incidencia, es decir, número_afectado indica nuevos casos en ese año. Pero su método de correlación simple también debería funcionar para eso.

rnso

@rnso: en realidad quise decir incidencia, es decir, número_afectado indica nuevos casos en ese año. - así lo entendí y no veo contradicción.

Wrzlprmft

Hice ese comentario ya que usaste la palabra 'prevalencia' en tu respuesta. La prevalencia también incluirá casos de años anteriores (a menos que hayan muerto). en.wikipedia.org/wiki/…

rnso

@rnso: Ah, punto tomado.

Wrzlprmft

Las medidas de correlación, como τ de Kendalls o ρ de Spearman, no son apropiadas, ya que se crean para variables aleatorias , y aquí una de las variables (tiempo) obviamente no es aleatoria en absoluto. Ver, por ejemplo, No resumir esquemas de muestreo de regresión con correlación . Además de eso, τ de los Kendalls o rho de Spearman pruebas no funcionan muy bien, ya que hay una gran cantidad de lazos en los datos. Un enfoque de regresión sería mejor, por ejemplo, una regresión de Poisson (con una función de tendencia adecuada) y una prueba de razón de probabilidad.

Karl Ove Hufthammer