Las compensaciones se pueden usar en cualquier modelo de regresión, pero son mucho más comunes cuando se trabaja con datos de conteo para su variable de respuesta. Un desplazamiento es solo una variable que se ve obligada a tener un coeficiente de en el modelo. (Vea también este excelente hilo CV: ¿ Cuándo usar un desplazamiento en una regresión de Poisson? ) 1
Cuando se usa correctamente con datos de conteo, esto le permitirá modelar tasas en lugar de conteos . Si eso es de interés, entonces es algo que hacer. Por lo tanto, este es el contexto en el que las compensaciones se utilizan con mayor frecuencia. Consideremos un Poisson GLiM con un enlace de registro (que es el enlace canónico).
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)when β2≠1(counts)(rates)(still rates)(counts again)
(Como puede ver, la clave para usar un desplazamiento correctamente es hacer el desplazamiento, no ). t i m eln(time)time
Cuando el coeficiente en no es , ya no estás modelando tasas. Pero dado que proporciona una flexibilidad mucho mayor para ajustar los datos, los modelos que no usan como compensación normalmente encajan mejor (aunque también pueden sobreajustar). 1 β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) ln ( t i m e )ln(time)1β2∈(−∞,1)∪(1,∞)ln(time)
Si debe modelar recuentos o tasas realmente depende de cuál sea su pregunta sustantiva. Debe modelar el que corresponda a lo que desea saber.
En cuanto a lo que podría significar que no sea , considere un ejemplo donde el tiempo no es la variable en cuestión. Imagine estudiar el número de complicaciones quirúrgicas en diferentes hospitales. Un hospital tiene muchas más complicaciones quirúrgicas reportadas, pero podrían afirmar que la comparación no es justa porque realizan muchas más cirugías. Entonces decides tratar de controlar esto. Simplemente puede usar el registro de la cantidad de cirugías como compensación, lo que le permitiría estudiar la tasa de complicaciones por cirugía. También podría usar el registro del número de cirugías como otra covariable. Digamos que el coeficiente es significativamente diferente de . Siβ211β2>1, entonces los hospitales que realizan más cirugías tienen una tasa más alta de complicaciones (quizás porque están apurando el trabajo para hacer más). Si , los hospitales que tienen más complicaciones tienen menos complicaciones por cirugía (tal vez tienen los mejores médicos y, por lo tanto, hacen más y los mejoran). β2<1
Ver cómo esto podría suceder si la variable en cuestión fuera el tiempo es un poco más complicado. La distribución de Poisson surge del proceso de Poisson , en el que el tiempo entre eventos se distribuye exponencialmente y, por lo tanto, existe una conexión natural con el análisis de supervivencia. En el análisis de supervivencia, el tiempo transcurrido hasta los eventos a menudo no se distribuye como exponencial, pero el peligro de la línea de base puede aumentar o disminuir con el tiempo. Por lo tanto, considere un caso en el que está modelando el número de eventos que ocurren después de un punto de partida natural. Si , eso significa que la tasa de eventos se está acelerando, mientras que si , eso significa que la tasa de eventos se está desacelerando. β2> 1β2< 1
Para un ejemplo concreto de lo primero, imagine una exploración que cuente el número de células cancerosas un período de tiempo después de que se extirpó quirúrgicamente el tumor inicial. Para algunos pacientes, ha transcurrido más tiempo desde la cirugía y querías tenerlo en cuenta. Dado que una vez que un cáncer ha recuperado su posición, comenzará a crecer exponencialmente, la tasa aumentará con el tiempo desde la cirugía sin tratamiento adicional.
Para un ejemplo concreto de esto último, considere el número de personas que mueren de un brote de enfermedad para el que no tenemos tratamiento. Al principio, muchas personas mueren porque eran más susceptibles a esa enfermedad, o ya tenían un sistema inmune comprometido, etc. Con el tiempo, a medida que la población de personas restantes sea menos susceptible a la enfermedad, la tasa disminuirá. (Lo siento, este ejemplo es tan mórbido).
Las compensaciones de tiempo generalmente se pueden ver como su modelo estimando la tasa de ocurrencia de un evento por unidad de tiempo, con la compensación controlando durante cuánto tiempo observó diferentes sujetos.
En los modelos de Poisson, siempre está estimando una tasa de que algo sucede, pero nunca puede observar esta tasa directamente. Usted no consigue observar el número de veces que un evento ocurre una cierta cantidad de tiempo. El desplazamiento establece la conexión entre los dos conceptos.
Por ejemplo, observó que los sujetos disparaban canastas durante diferentes períodos de tiempo y contó el número de canastas exitosas para cada sujeto. Lo que realmente le interesa es con qué frecuencia cada sujeto hunde una canasta, es decir, la cantidad de canastas exitosas que cada sujeto espera hundir cada minuto, ya que es una medida algo objetiva de su habilidad. La cantidad de cestas que realmente observó hundidas sería entonces esta tasa estimada multiplicada por el tiempo que observó el intento del sujeto. Entonces puede pensar en términos de las unidades de la respuesta, el número de canastas por minuto .
Es difícil pensar en una situación en la que usaría el tiempo observado como una covariable en una regresión de Poisson, ya que por su propia naturaleza está estimando una tasa.
Aquí hay un ejemplo que esperamos resalte el peligro de esto. Suponga que los estadounidenses y los europeos, en verdad, hunden la misma cantidad de canastas por minuto. Pero digamos que hemos observado a cada europeo el doble de tiempo que a cada estadounidense, por lo que, en promedio, hemos observado el doble de canastas por cada europeo.
Si configuramos un modelo que incluye parámetros para el tiempo observado y un indicador para "es europeo", ambos modelos explican los datos:
(donde es algo constante, que es la tasa real que ambos tipos de jugadores hacen canastas).c
Como estadístico, realmente queremos, en esta situación, que nuestro modelo nos informe que no hay diferencia estadística entre la tasa que los europeos hacen cestas y la tasa que los estadounidenses hacen cestas. Pero nuestro modelo no ha podido hacerlo, y nos quedamos confundidos.
La cuestión es que nos conocemos algo que nuestro modelo no se sabe. Es decir, que sabemos que si observamos el mismo individuo durante el doble de tiempo, que, a la espera, que hará que el doble de los cestos. Como sabemos esto, necesitamos contarle a nuestro modelo. Esto es lo que logra el desplazamiento.
Sí, pero esta es una suposición del modelo de Poisson en sí . Desde la página de Wikipedia en la distribución de Poisson
fuente