Regresión de Poisson inflada a cero

Supongamos que son independientes y $\textbf{Y} = (Y_1, \dots, Y_n)'$

\begin{aligned} Y_{i} = 0 & with probability p_{i} + (1 - p_{i}) e^{- λ_{i}} \\ Y_{i} = k & with probability (1 - p_{i}) e^{- λ_{i}} λ_{i}^{k} / k! \end{aligned}

$\eqalign{ Y_i = 0 & \text{with probability} \ p_i+(1-p_i)e^{-\lambda_i}\\ Y_i = k & \text{with probability} \ (1-p_i)e^{-\lambda_i} \lambda_{i}^{k}/k! }$

Supongamos también que los parámetros y satisfacen $\mathbf{\lambda} = (\lambda_1, \dots, \lambda_n)'$ $\textbf{p} = (p_1, \dots, p_n)$

\begin{aligned} \log (λ) & = B β \\ logit (p) & = \log (p / (1 - p)) = G λ . \end{aligned}

$\eqalign{ \log(\mathbf{\lambda}) &= \textbf{B} \beta \\ \text{logit}(\textbf{p}) &= \log(\textbf{p}/(1-\textbf{p})) = \textbf{G} \mathbf{\lambda}. }$

Si las mismas covariables afectan a $\mathbf{\lambda}$ y $\textbf{p}$ modo que $\textbf{B} = \textbf{G}$ , entonces ¿por qué la regresión de Poisson inflada a cero requiere el doble de parámetros que la regresión de Poisson?

poisson-regression zero-inflation Damien
fuente

Todavía tiene que estimar y . y son matrices de diseño (datos), por lo que ser iguales no reduce la dimensión del espacio de parámetros.

β

$\beta$

λ

$\lambda$

B

$\bf B$

G

$\bf G$

Macro

@Macro: Si es una columna de unos, entonces ¿por qué necesitaríamos 1 parámetro más para estimar que la regresión de Poisson?

G

$\textbf{G}$

Damien

bueno, deberías estimar (la "intercepción" en la parte logística del modelo) y (la "intercepción" en la parte de Poisson del modelo) para que haya 2 parámetros en lugar de 1.

p_{i}

$p_i$

λ_{i}

$\lambda_i$

Macro

@Robby, para reducir la cantidad de parámetros tendrías que hacer algunas restricciones. Por ejemplo, , aunque no hay razón para pensar que esto tenga sentido, especialmente porque las funciones de enlace son diferentes.

λ = β

$\lambda=\beta$

Macro

@MichaelChernick: se llama Poisson inflado a cero porque básicamente estás "inflando" la probabilidad de ver un cero de una señal de Poisson mientras mantienes las mismas probabilidades relativas de ver un valor distinto de cero que el Poisson.

jbowman

Respuestas:

En el caso de Poisson inflado cero, si , a continuación, y ambos tienen la misma longitud, que es el número de columnas de o . Por lo tanto, el número de parámetros es el doble del número de columnas de la matriz de diseño, es decir, el doble del número de variables explicativas, incluida la intercepción (y cualquier codificación ficticia necesaria). $\mathbf{B}=\mathbf{G}$ $\beta$ $\lambda$ $\mathbf{B}$ $\mathbf{G}$

En una regresión directa de Poisson, no hay un vector que preocuparse, no es necesario estimar . Entonces, el número de parámetros es solo la longitud de es decir, la mitad del número de parámetros en el caso inflado a cero. $\mathbf{p}$ $\lambda$ $\beta$

Ahora, no hay una razón particular por la que tenga que ser igual a , pero generalmente tiene sentido. Sin embargo, uno podría imaginar un proceso de generación de datos donde la posibilidad de tener algún evento sea creada por un proceso y un proceso completamente diferente impulsa cuántos eventos hay, dados los eventos distintos de cero. Como ejemplo artificial, elijo las aulas en función de sus puntajes en el examen de Historia para jugar algún juego no relacionado, y luego observo la cantidad de goles que marcan. En este caso, podría ser bastante diferente a (si las cosas que conducen los puntajes del examen de Historia son diferentes a las que conducen el rendimiento del juego) y y $\mathbf{B}$ $\mathbf{G}$ $\mathbf{G\lambda}$ $\mathbf{B\beta}$ $\mathbf{B}$ $\mathbf{G}$ $\beta$ $\lambda$ podría tener diferentes longitudes. podría tener más columnas que o menos. Entonces, el modelo de Poisson inflado a cero en ese caso tendrá más parámetros que un modelo de Poisson simple. $\mathbf{G}$ $\mathbf{B}$

En la práctica común, creo que mayor parte del tiempo. $\mathbf{G} = \mathbf{B}$

Peter Ellis
fuente