Sesgo variable omitido en la regresión logística versus sesgo variable omitido en la regresión de mínimos cuadrados ordinarios

Tengo una pregunta sobre el sesgo variable omitido en la regresión logística y lineal.

Digamos que omito algunas variables de un modelo de regresión lineal. Imagine que esas variables omitidas no están correlacionadas con las variables que incluí en mi modelo. Esas variables omitidas no sesgan los coeficientes en mi modelo.

Pero en la regresión logística, acabo de enterarme de que esto no es cierto. Las variables omitidas sesgarán los coeficientes de las variables incluidas, incluso si las variables omitidas no están correlacionadas con las variables incluidas. Encontré un artículo sobre este tema, pero no puedo entenderlo.

Aquí está el papel y algunas diapositivas de PowerPoint.

El sesgo, aparentemente, siempre es hacia cero. ¿Alguien puede explicar cómo funciona esto?

regression logistic least-squares bias ConfundidoEconometría
fuente

¿Está familiarizado con la forma en que el modelo de regresión logística emerge de un modelo de regresión lineal subyacente de "variable latente"?

Alecos Papadopoulos

@AlecosPapadopoulos I por mi parte no lo soy. Cual es el plato

Alexis

Hay otros artículos que discuten esto, pero el que enlazó es el más fácil que conozco. Así que no creo que pueda mejorarlo.

Maarten Buis

Estimado Sr. Papadopoulos: He leído sobre la idea de la variable latente. ¿Por qué preguntas?

ConfusedEconometricsUndergrad

@ Alexis Consulte, por ejemplo, esta publicación, stats.stackexchange.com/questions/80611/… , y el artículo de wikipedia, en.wikipedia.org/wiki/… . Este enfoque también aclara que es la suposición que hacemos sobre el término de error del modelo subyacente lo que determina qué modelo obtendremos en el nivel de Probabilidades. Para otro ejemplo, si suponemos que el error subyacente sigue un uniforme, obtenemos el Modelo de probabilidad lineal, ver stats.stackexchange.com/questions/81789

Alecos Papadopoulos

El caso de "sesgo de atenuación" puede presentarse más claramente si examinamos el modelo "probit", pero el resultado también se traslada a la regresión logística.

Debajo de los Modelos de probabilidad condicional (modelos logísticos (logit), "probit" y "Probabilidad lineal") podemos postular un modelo de regresión lineal latente (no observable):

y^{*} = X β + u

$y^* = X\beta + u$

donde es una variable continua no observable (y es la matriz regresora). Se supone que el término de error es independiente de los regresores y que sigue una distribución que tiene una densidad simétrica alrededor de cero y, en nuestro caso, la distribución normal estándar . $y^*$ $X$ $F_U(u)= \Phi(u)$

Suponemos que lo que observamos, es decir, la variable binaria , es una función indicadora de la no observable : $y$ $y^*$

y = 1 if y^{*} > 0, y = 0 if y^{*} \leq 0

$y = 1 \;\;\text{if} \;\;y^*>0,\qquad y = 0 \;\;\text{if}\;\; y^*\le 0$

Luego preguntamos "¿cuál es la probabilidad de que tome el valor dados los regresores?" (es decir, estamos viendo una probabilidad condicional). Esto es $y$ $1$

P (y = 1 ∣ X) = P (y^{*} > 0 ∣ X) = P (X β + u > 0 ∣ X) = P (u > - X β ∣ X) = 1 - Φ (- Χ β) = Φ (X β)

$P(y =1\mid X ) = P(y^*>0\mid X) = P(X\beta + u>0\mid X) = P(u> - X\beta\mid X) \\= 1- \Phi (-Χ\beta) = \Phi (X\beta)$

la última igualdad debido a la propiedad "reflexiva" de la función de distribución acumulativa estándar, que proviene de la simetría de la función de densidad alrededor de cero. Tenga en cuenta que, aunque hemos supuesto que es independiente de , es necesario condicionar para tratar la cantidad como no aleatoria. $u$ $X$ $X$ $X\beta$

Si suponemos que , obtenemos el modelo teórico $X\beta = b_0+b_1X_1 + b_2X_2$

\begin{matrix} (1) & P (y = 1 ∣ X) = Φ (b_{0} + b_{1} X_{1} + b_{2} X_{2}) \end{matrix}

$P(y =1\mid X ) = \Phi (b_0+b_1X_1 + b_2X_2) \tag{1}$

Sea ahora independiente de y erróneamente excluido de la especificación de la regresión subyacente. Entonces especificamos $X_2$ $X_1$

Supongamos además que también es una variable aleatoria normal . Pero esto significa que

y^{*} = b_{0} + b_{1} X_{1} + ϵ

$y^* = b_0+b_1X_1 + \epsilon$

X_{2}

$X_2$

X_{2} \sim N (μ_{2}, σ_{2}^{2})

$X_2 \sim N(\mu_2,\sigma_2^2)$

ϵ = u + b_{2} X_{2} \sim N (b_{2} μ_{2}, 1 + b_{2}^{2} σ_{2}^{2})

$\epsilon = u + b_2X_2 \sim N(b_2\mu_2, 1+b_2^2\sigma_2^2)$

debido al cierre bajo adición de la distribución normal (y el supuesto de independencia). Aplicando la misma lógica que antes, aquí tenemos

P (y = 1 ∣ X_{1}) = P (y^{*} > 0 ∣ X_{1}) = P (b_{0} + b_{1} X_{1} + ϵ > 0 ∣ X_{1}) = P (ϵ > - b_{0} - b_{1} X_{1} ∣ X_{1})

$P(y =1\mid X_1 ) = P(y^*>0\mid X_1) = P(b_0+b_1X_1 + \epsilon>0\mid X_1) = P(\epsilon> - b_0-b_1X_1\mid X_1)$

Estandarizando la variable que tenemos $\epsilon$

P (y = 1 ∣ X_{1}) = 1 - P (\frac{ϵ - b_{2} μ_{2}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} \leq - \frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} - \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1} ∣ X_{1})

$P(y =1\mid X_1 )= 1- P\left(\frac{\epsilon-b_2\mu_2}{\sqrt {1+b_2^2\sigma_2^2}}\leq - \frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}- \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\mid X_1\right)$

\begin{matrix} (2) & \Rightarrow P (y = 1 ∣ X_{1}) = Φ (\frac{(b_{0} + b_{2} μ_{2})}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} + \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} X_{1}) \end{matrix}

$\Rightarrow P(y =1\mid X_1) = \Phi\left(\frac {(b_0 + b_2\mu_2)}{\sqrt {1+b_2^2\sigma_2^2}}+ \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}}X_1\right) \tag{2}$

and one can compare models $(1)$ and $(2)$ .

The above theoretical expression, tells us where our maximum likelihood estimator of $b_1$ is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the "truth" in any case):

{\hat{b}}_{1} \overset{p}{\to} \frac{b_{1}}{\sqrt{1 + b_{2}^{2} σ_{2}^{2}}} ⟹ | {\hat{b}}_{1} | < | b_{1} |

$\hat b_1 \xrightarrow{p} \frac {b_1}{\sqrt {1+b_2^2\sigma_2^2}} \implies |\hat b_1|< |b_1|$

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of $\epsilon$ . The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).

Alecos Papadopoulos
fuente

Sesgo variable omitido en la regresión logística versus sesgo variable omitido en la regresión de mínimos cuadrados ordinarios

Respuestas: