En un modelo de Poisson, ¿cuál es la diferencia entre usar el tiempo como una covariable o un desplazamiento?

Recientemente descubrí cómo modelar exposiciones a lo largo del tiempo utilizando el registro de (p. Ej.) Tiempo como compensación en una regresión de Poisson.

Comprendí que el desplazamiento corresponde a tener el tiempo como covariable con el coeficiente 1.

Me gustaría entender mejor la diferencia entre usar el tiempo como una compensación o como una covariable normal (por lo tanto, estimar el coeficiente). ¿En qué situación debería querer usar un método u otro?

ACTUALIZACIÓN: No sé si es interesante, pero ejecuté una validación de los dos métodos usando datos divididos aleatoriamente repetidos 500 veces y noté que usar el método de compensación conduce a un error de prueba más grande.

poisson-regression predictor offset Bakaburg
fuente

Respuestas:

Las compensaciones se pueden usar en cualquier modelo de regresión, pero son mucho más comunes cuando se trabaja con datos de conteo para su variable de respuesta. Un desplazamiento es solo una variable que se ve obligada a tener un coeficiente de en el modelo. (Vea también este excelente hilo CV: ¿ Cuándo usar un desplazamiento en una regresión de Poisson? ) $1$

Cuando se usa correctamente con datos de conteo, esto le permitirá modelar tasas en lugar de conteos . Si eso es de interés, entonces es algo que hacer. Por lo tanto, este es el contexto en el que las compensaciones se utilizan con mayor frecuencia. Consideremos un Poisson GLiM con un enlace de registro (que es el enlace canónico).

\begin{aligned} \ln (λ) & = β_{0} + β_{1} X & (c o u n t s) \\ \ln (\frac{λ}{t i m e}) & = β_{0} + β_{1} X & (r a t e s) \\ \Rightarrow \\ \ln (λ) - \ln (t i m e) & = β_{0} + β_{1} X \\ \ln (λ) & = β_{0} + β_{1} X + 1 \times \ln (t i m e) & (s t i l l r a t e s) \\ \neq \\ \ln (λ) & = β_{0} + β_{1} X + β_{2} \times \ln (t i m e) w h e n β_{2} \neq 1 & (c o u n t s a g a i n) \end{aligned}

$\begin{align} \ln(\lambda) &= \beta_0 + \beta_1X & ({\rm counts})& \\ \ln\bigg(\frac{\lambda}{{\rm time}}\bigg) &= \beta_0 + \beta_1X & ({\rm rates})& \\ &\Rightarrow \\ \ln(\lambda) - \ln({\rm time}) &= \beta_0 + \beta_1X \\ \ln(\lambda) &= \beta_0 + \beta_1X + 1\times \ln({\rm time}) & ({\rm still\ rates})& \\ &\ne \\ \ln(\lambda) &= \beta_0 + \beta_1X + \beta_2\times \ln({\rm time})\quad {\rm when}\ \beta_2 \ne 1 & ({\rm counts\ again})& \end{align}$

(Como puede ver, la clave para usar un desplazamiento correctamente es hacer el desplazamiento, no ). $\ln({\rm time})$ $\rm time$

Cuando el coeficiente en no es , ya no estás modelando tasas. Pero dado que proporciona una flexibilidad mucho mayor para ajustar los datos, los modelos que no usan como compensación normalmente encajan mejor (aunque también pueden sobreajustar). $\ln({\rm time})$ $1$ $\beta_2 \in (-\infty, 1)\cup (1, \infty)$ $\ln({\rm time})$

Si debe modelar recuentos o tasas realmente depende de cuál sea su pregunta sustantiva. Debe modelar el que corresponda a lo que desea saber.

En cuanto a lo que podría significar que no sea , considere un ejemplo donde el tiempo no es la variable en cuestión. Imagine estudiar el número de complicaciones quirúrgicas en diferentes hospitales. Un hospital tiene muchas más complicaciones quirúrgicas reportadas, pero podrían afirmar que la comparación no es justa porque realizan muchas más cirugías. Entonces decides tratar de controlar esto. Simplemente puede usar el registro de la cantidad de cirugías como compensación, lo que le permitiría estudiar la tasa de complicaciones por cirugía. También podría usar el registro del número de cirugías como otra covariable. Digamos que el coeficiente es significativamente diferente de . Si $\beta_2$ $1$ $1$ $\beta_2 > 1$ , entonces los hospitales que realizan más cirugías tienen una tasa más alta de complicaciones (quizás porque están apurando el trabajo para hacer más). Si , los hospitales que tienen más complicaciones tienen menos complicaciones por cirugía (tal vez tienen los mejores médicos y, por lo tanto, hacen más y los mejoran). $\beta_2 < 1$

Ver cómo esto podría suceder si la variable en cuestión fuera el tiempo es un poco más complicado. La distribución de Poisson surge del proceso de Poisson , en el que el tiempo entre eventos se distribuye exponencialmente y, por lo tanto, existe una conexión natural con el análisis de supervivencia. En el análisis de supervivencia, el tiempo transcurrido hasta los eventos a menudo no se distribuye como exponencial, pero el peligro de la línea de base puede aumentar o disminuir con el tiempo. Por lo tanto, considere un caso en el que está modelando el número de eventos que ocurren después de un punto de partida natural. Si , eso significa que la tasa de eventos se está acelerando, mientras que si , eso significa que la tasa de eventos se está desacelerando. $\beta_2 > 1$ $\beta_2 < 1$

Para un ejemplo concreto de lo primero, imagine una exploración que cuente el número de células cancerosas un período de tiempo después de que se extirpó quirúrgicamente el tumor inicial. Para algunos pacientes, ha transcurrido más tiempo desde la cirugía y querías tenerlo en cuenta. Dado que una vez que un cáncer ha recuperado su posición, comenzará a crecer exponencialmente, la tasa aumentará con el tiempo desde la cirugía sin tratamiento adicional.

Para un ejemplo concreto de esto último, considere el número de personas que mueren de un brote de enfermedad para el que no tenemos tratamiento. Al principio, muchas personas mueren porque eran más susceptibles a esa enfermedad, o ya tenían un sistema inmune comprometido, etc. Con el tiempo, a medida que la población de personas restantes sea menos susceptible a la enfermedad, la tasa disminuirá. (Lo siento, este ejemplo es tan mórbido).

gung - Restablece a Monica
fuente

¡Muchas gracias Gung por tu respuesta integral! Por favor dime si entendí bien. Si usamos el tiempo como compensación, asumimos una relación lineal positiva entre el tiempo y los eventos cuyo coeficiente angular es dado por los otros predictores exponenciados . En cambio, si usamos el tiempo de registro como covariable, estimamos el efecto exponencial del tiempo en los eventos, que puede ser positivo o negativo . (cont ...)

y = t i m e * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$

y = {t i m e}^{β_{t i m e}} * \exp (\sum_{1}^{p} β_{p} X_{p} + c o n s t)

$y = {\rm time}^{\beta_{{\rm time}}}*\exp(\sum_{1}^{p}\beta_pX_p + {\rm const})$

Bakaburg

Por lo tanto, ¿por qué uno debería asumir que la relación entre el tiempo y los eventos es lineal y está creciendo? ¿No sería mejor estimar la forma de tal relación en todos los casos? Tengo dos preguntas más: 1. ¿Qué significaría usar no registrar el tiempo transformado como covariable? 2. (tal vez debería editar la pregunta o hacer una nueva para esto) Leí que los modelos de Poisson en realidad también se pueden usar con números enteros. Por lo tanto, podría escribir en R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) y obtener los mismos resultados que obtuve con offset (log (time)). Intenté esto pero obtengo diferentes coeficientes.

Bakaburg

El dist de Poisson es solo para enteros; No debe ingresar una fracción en el LHS. No usar la transformación logarítmica significa modelar tasas de eventos por unidad de tiempo exponencial, lo que probablemente nunca será sensible en el mundo real.

gung - Restablece a Monica

@Bakaburg, el tiempo probablemente se correlaciona con ellos. Eso no es diferente de cualquier otra situación de modelado de regresión. No veo el problema aquí. Usted está interesado en modelar tasas promedio o no lo está.

gung - Restablece a Monica

@tatami, si va a usar el tiempo como una covariable (en lugar de un desplazamiento), no tiene que tomar el registro del tiempo. Sin embargo, si desea comparar su resultado con un desplazamiento, necesitaría usar el registro para hacerlos comparables.

gung - Restablece a Monica

Las compensaciones de tiempo generalmente se pueden ver como su modelo estimando la tasa de ocurrencia de un evento por unidad de tiempo, con la compensación controlando durante cuánto tiempo observó diferentes sujetos.

En los modelos de Poisson, siempre está estimando una tasa de que algo sucede, pero nunca puede observar esta tasa directamente. Usted no consigue observar el número de veces que un evento ocurre una cierta cantidad de tiempo. El desplazamiento establece la conexión entre los dos conceptos.

Por ejemplo, observó que los sujetos disparaban canastas durante diferentes períodos de tiempo y contó el número de canastas exitosas para cada sujeto. Lo que realmente le interesa es con qué frecuencia cada sujeto hunde una canasta, es decir, la cantidad de canastas exitosas que cada sujeto espera hundir cada minuto, ya que es una medida algo objetiva de su habilidad. La cantidad de cestas que realmente observó hundidas sería entonces esta tasa estimada multiplicada por el tiempo que observó el intento del sujeto. Entonces puede pensar en términos de las unidades de la respuesta, el número de canastas por minuto .

Es difícil pensar en una situación en la que usaría el tiempo observado como una covariable en una regresión de Poisson, ya que por su propia naturaleza está estimando una tasa.

Por ejemplo, si quiero evaluar el efecto de ser estadounidense frente a europeo (ejemplo muy tonto) en el número de canastas, agregar tiempo como una covariable me permitiría evaluar ese efecto "independientemente" del tiempo transcurrido del disparo, ¿no es así? ¿eso? Además, también me daría una estimación del efecto del tiempo en el resultado.

Aquí hay un ejemplo que esperamos resalte el peligro de esto. Suponga que los estadounidenses y los europeos, en verdad, hunden la misma cantidad de canastas por minuto. Pero digamos que hemos observado a cada europeo el doble de tiempo que a cada estadounidense, por lo que, en promedio, hemos observado el doble de canastas por cada europeo.

Si configuramos un modelo que incluye parámetros para el tiempo observado y un indicador para "es europeo", ambos modelos explican los datos:

E (baskets) = 2 c t + 0 x_{Eropean}

$E(\text{baskets}) = 2 c t + 0 x_{\text{Eropean}}$

E (baskets) = 0 t + 2 c x_{Eropean}

$E(\text{baskets}) = 0 t + 2 c x_{\text{Eropean}}$

(donde es algo constante, que es la tasa real que ambos tipos de jugadores hacen canastas). $c$

Como estadístico, realmente queremos, en esta situación, que nuestro modelo nos informe que no hay diferencia estadística entre la tasa que los europeos hacen cestas y la tasa que los estadounidenses hacen cestas. Pero nuestro modelo no ha podido hacerlo, y nos quedamos confundidos.

La cuestión es que nos conocemos algo que nuestro modelo no se sabe. Es decir, que sabemos que si observamos el mismo individuo durante el doble de tiempo, que, a la espera, que hará que el doble de los cestos. Como sabemos esto, necesitamos contarle a nuestro modelo. Esto es lo que logra el desplazamiento.

¡Quizás usar el método de compensación sea apropiado cuando sabemos que los eventos ocurren uniformemente a lo largo del tiempo!

Sí, pero esta es una suposición del modelo de Poisson en sí . Desde la página de Wikipedia en la distribución de Poisson

La distribución de Poisson, llamada así por el matemático francés Siméon Denis Poisson, es una distribución de probabilidad discreta que expresa la probabilidad de que ocurra un número determinado de eventos en un intervalo fijo de tiempo y / o espacio si estos eventos ocurren con una tasa promedio conocida e independientemente de El tiempo transcurrido desde el último evento .

Matthew Drury
fuente

Gracias por tu respuesta. Pero usar el tiempo como una covariable ¿no me daría la misma respuesta? Por ejemplo, si quiero evaluar el efecto de ser estadounidense frente a europeo (ejemplo muy tonto) en el número de canastas, agregar tiempo como una covariable me permitiría evaluar ese efecto "independientemente" del tiempo transcurrido del disparo, ¿no es así? ¿eso? Además, también me daría una estimación del efecto del tiempo en el resultado. A veces, el tiempo no siempre es importante para una variable de conteo, por ejemplo, cuando los eventos ocurren al comienzo del período de observación.

Bakaburg

¡Quizás usar el método de compensación sea apropiado cuando sabemos que los eventos ocurren uniformemente a lo largo del tiempo!

Bakaburg

@Bakaburg Agregué un intento de respuesta. ¡Espero que ayude!

Matthew Drury