Modelo de regresión lineal que mejor se adapta a datos con errores

Estoy buscando el algoritmo de regresión lineal que sea más adecuado para datos cuya variable independiente (x) tiene un error de medición constante y la variable dependiente (y) tiene un error dependiente de la señal.

ingrese la descripción de la imagen aquí

La imagen de arriba ilustra mi pregunta.

regression linear-model measurement-error measurement usuario46178
fuente

Si la variable constante x tiene un error de medición constante, y los errores se usan solo para ponderar las variables de forma relativa, ¿no es esta situación equivalente a no tener errores en x?

pedrofigueira

@pedro Ese no es el caso, porque los errores en no son meras ponderaciones en una fórmula. Con la regresión de errores en variables, los ajustes diferirán y las estimaciones de covarianza de los parámetros diferirán de la regresión ordinaria.

x

$x$

whuber

Gracias por la aclaración. ¿Podría ampliar un poco sobre por qué ese es el caso?

pedrofigueira

Error de medida en la variable dependiente

Dado un modelo lineal general con homosckedastic, no autocorrelacionado y no correlacionado con las variables independientes, deje que denote la variable "verdadera", y su medida observable El error de medición se define como su diferencia Por lo tanto, el modelo estimable es: Dado que son observado, podemos estimar el modelo por OLS. Si el error de medición en es estadísticamente independiente de cada variable explicativa, entonces

\begin{matrix} (1) & y = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + ε \end{matrix}

$y=\beta_0+\beta_1 x_1+\cdots+\beta_kx_k+\varepsilon\tag{1}$

ε

$\varepsilon$

y^{*}

$y^*$

y

$y$

e = y - y^{*}

$e=y-y^*$

\begin{matrix} (2) & y = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + e + ε \end{matrix}

$y=\beta_0+\beta_1 x_1+\cdots+\beta_kx_k+e+\varepsilon\tag{2}$

y, x_{1}, \dots, x_{k}

$y,x_1,\dots,x_k$

y

$y$

(e + ε)

$(e+\varepsilon)$ comparte las mismas propiedades que y los procedimientos de inferencia OLS habituales ( estadísticas, etc.) son válidos. Sin embargo, en su caso, esperaría una variación creciente de . Podrías usar:

ε

$\varepsilon$

t

$t$

e

$e$

un estimador ponderado de mínimos cuadrados (por ejemplo, Kutner et al. , §11.1; Verbeek , §4.3.1-3);
el estimador OLS, que aún es imparcial y consistente, y los errores estándar consistentes con la heterocedasticidad, o simplemente los errores estándar de Wite ( Verbeek , §4.3.4).

Error de medida en la variable independiente

Dado el mismo modelo lineal que el anterior, dejemos que denote el valor "verdadero" y su medida observable. El error de medición es ahora: Hay dos situaciones principales ( Wooldridge , §4.4.2). $x_k^*$ $x_k$

e_{k} = x_{k} - x_{k}^{*}

$e_k=x_k-x_k^*$

$\text{Cov}(x_k,e_k)=0$ : el error de medición no está correlacionado con la medida observada y, por lo tanto, debe correlacionarse con la variable no observada ; escribir y enchufar esto en (1): ya que y ambos no están correlacionados con cada , incluyendo , la medición solo aumenta la varianza del error y no viola ninguno de los supuestos de OLS; $x^*_k$ $x_k^*=x_k-e_k$
$y = β_{0} + β_{1} x_{1} + \dots + β_{k} x_{k} + (ε - β_{k} e_{k})$ $y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+(\varepsilon-\beta_ke_k)$ $\varepsilon$ $e$ $x_j$ $x_k$
$\text{Cov}(x^*_k,\eta_k)=0$ : el error de medición no está correlacionado con la variable no observada y, por lo tanto, debe correlacionarse con la medida observada ; tal correlación causa problemas y la regresión de OLS de en generalmente da estimadores sesgados y sin consistencia. $x_k$ $y$ $x_1,\dots,x_k$

Hasta donde puedo adivinar mirando su gráfico (errores centrados en los valores "verdaderos" de la variable independiente), podría aplicarse el primer escenario.

Sergio
fuente

Modelo de regresión lineal que mejor se adapta a datos con errores

Respuestas: