¿Por qué el error de medición en la variable dependiente no sesga los resultados?

Cuando hay un error de medición en la variable independiente, he entendido que los resultados estarán sesgados contra 0. Cuando la variable dependiente se mide con error, dicen que solo afecta los errores estándar, pero esto no tiene mucho sentido para mí porque estamos estimando el efecto de no en la variable original sino en alguna otra más un error. Entonces, ¿cómo no afecta esto a las estimaciones? En este caso, ¿puedo usar también variables instrumentales para eliminar este problema? $X$ $Y$ $Y$

regression econometrics instrumental-variables Gato
fuente

Respuestas:

Cuando desea estimar un modelo simple como y en lugar del verdadero , solo lo observa con algún error que es tal que es sin correlación con y , si su estimada es

Y_{i} = α + β X_{i} + ϵ_{i}

$Y_i = \alpha + \beta X_i + \epsilon_i$

Y_{i}

$Y_i$

{\tilde{Y}}_{i} = Y_{i} + ν_{i}

$\widetilde{Y}_i = Y_i + \nu_i$

X

$X$

ϵ

$\epsilon$

{\tilde{Y}}_{i} = α + β X_{i} + ϵ_{i}

$\widetilde{Y}_i = \alpha + \beta X_i + \epsilon_i$

β

$\beta$

\begin{aligned} \hat{β} & = \frac{C o v ({\tilde{Y}}_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (Y_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α + β X_{i} + ϵ_{i} + ν_{i}, X_{i})}{V a r (X_{i})} \\ = \frac{C o v (α, X_{i})}{V a r (X_{i})} + β \frac{C o v (X_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ϵ_{i}, X_{i})}{V a r (X_{i})} + \frac{C o v (ν_{i}, X_{i})}{V a r (X_{i})} \\ = β \frac{V a r (X_{i})}{V a r (X_{i})} \\ = β \end{aligned}

$\begin{align} \widehat{\beta} &= \frac{Cov(\widetilde{Y}_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(Y_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha + \beta X_i + \epsilon_i + \nu_i,X_i)}{Var(X_i)} \newline &= \frac{Cov(\alpha ,X_i)}{Var(X_i)} + \beta\frac{Cov(X_i,X_i)}{Var(X_i)} + \frac{Cov(\epsilon_i,X_i)}{Var(X_i)} + \frac{Cov(\nu_i,X_i)}{Var(X_i)} \newline &= \beta \frac{Var(X_i)}{Var(X_i)} \newline &= \beta \end{align}$ porque la covarianza entre un una variable aleatoria y una constante ( ) es cero, así como las covarianzas entre y ya que asumimos que no están correlacionadas.

α

$\alpha$

X_{i}

$X_i$

ϵ_{i}, ν_{i}

$\epsilon_i, \nu_i$

Entonces verá que su coeficiente se estima de manera consistente. La única preocupación es que le da un término adicional en el error que reduce el poder de sus pruebas estadísticas. En casos muy graves de dicho error de medición en la variable dependiente, es posible que no encuentre un efecto significativo a pesar de que podría estar allí en realidad. En general, las variables instrumentales no lo ayudarán en este caso porque tienden a ser aún más imprecisas que las MCO y solo pueden ayudar con el error de medición en la variable explicativa. $\widetilde{Y}_i = Y_i + \nu_i = \alpha + \beta X_i + \epsilon_i + \nu_i$

Andy
fuente

Tengo una pregunta simple aquí: ¿qué pasa si νi, que es el error de medición en la variable dependiente, está correlacionado con la variable independiente de interés? Me imagino que hay muchas posibilidades de que esto pueda suceder y el sesgo de deseabilidad social puede ser un ejemplo. Si los encuestados tenían un sesgo de deseabilidad social al responder al cuestionario (s) de la variable dependiente, y si esa deseabilidad estaba relacionada con la variable independiente, digamos edad o género (que podría estar relacionado con la deseabilidad social), qué sucede en términos de endogeneidad entonces?

Kang Inkyu

El análisis de regresión responde a la pregunta, "¿Cuál es el valor PROMEDIO Y para aquellos que han dado valores X?" o, equivalentemente, "¿Cuánto se predice que Y cambiará EN PROMEDIO si cambiamos X por una unidad?" El error de medición aleatorio no cambia los valores promedio de una variable, o los valores promedio para subconjuntos de individuos, por lo que el error aleatorio en la variable dependiente no sesgará las estimaciones de regresión.

Digamos que tiene datos de altura en una muestra de individuos. Estas alturas se miden con mucha precisión y reflejan con exactitud la verdadera estatura de todos. Dentro de la muestra, el promedio para los hombres es de 175 cm y el promedio para las mujeres es de 162 cm. Si usa la regresión para calcular qué tan bien el género predice la altura, estima el modelo

$\mathit{HEIGHT = CONSTANT + β * GENDER + RESIDUAL}$

Si las mujeres se codifican como 0 y los hombres como 1, es el promedio femenino, o 162 cm. El coeficiente de regresión muestra cuánto cambia la altura EN PROMEDIO cuando cambia en una unidad (de 0 a 1). es igual a 13 porque las personas cuyo valor para es 0 (mujeres) tienen una altura media de 162 cm, mientras que las personas cuyo valor para es 1 (hombres) tienen una altura media de 175 cm; estima la diferencia promedio entre las alturas de hombres y mujeres, que es de 13 cm. ( refleja la variación de altura dentro del género). $\mathit{CONSTANT}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{GENDER}$ $\mathit{GENDER}$ $\mathit{β}$ $\mathit{RESIDUAL}$

Ahora, si agrega al azar -1 cm o +1 cm a la altura real de todos, ¿qué sucederá? Las personas cuya altura real es, digamos, 170 cm ahora serán reportadas como 169 o 171 cm. Sin embargo, el promedio de la muestra, o cualquier submuestra, no cambiará. Aquellos cuya altura real es 170 cm promediarán 170 cm en el nuevo conjunto de datos erróneo, las mujeres promediarán 162 cm, etc. Si vuelve a ejecutar el modelo de regresión especificado anteriormente utilizando este nuevo conjunto de datos, el valor (esperado) de no cambiará porque la diferencia promedio entre hombres y mujeres sigue siendo de 13 cm, independientemente del error de medición. (El error estándar de será mayor que antes porque la varianza de la variable dependiente ahora es mayor). $\mathit{β}$ $\mathit{β}$

Si hay un error de medición en la variable independiente en lugar de la variable dependiente, será una estimación sesgada. Esto es fácil de entender cuando considera el ejemplo de altura. Si hay un error de medición aleatorio en la variable , algunos hombres se codificarán erróneamente como mujeres y viceversa. El efecto de esto es reducir las diferencias aparentes de género en la altura, porque mover a los hombres al grupo femenino hará que la media femenina sea mayor, mientras que mover a las mujeres al grupo masculino hará que la media masculina sea más pequeña. Con un error de medición en la variable independiente, será menor que el valor imparcial de 13 cm. $\mathit{β}$ $\mathit{GENDER}$ $\mathit{β}$

Si bien utilicé una variable independiente categórica ( ) para simplificar aquí, la misma lógica se aplica a las variables continuas. Por ejemplo, si utilizó una variable continua como la altura de nacimiento para predecir la altura de un adulto, el valor esperado de sería el mismo independientemente de la cantidad de error aleatorio en las mediciones de altura de un adulto. $\mathit{GENDER}$ $\mathit{β}$

usuario175057
fuente