¿Por qué el error estándar de la intersección aumenta cuanto más

El error estándar de la expresión de intercepción ( ) en está dada por $\hat{\beta}_0$ $y=\beta_1x+\beta_0+\varepsilon$ dondees la media de las's.

S E ({\hat{β}}_{0})^{2} = σ^{2} [\frac{1}{n} + \frac{{\bar{x}}^{2}}{\sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}]

$SE(\hat{\beta}_0)^2 = \sigma^2\left[\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right]$

\bar{x}

$\bar{x}$

x_{i}

$x_i$

Por lo que entiendo, la SE cuantifica su incertidumbre- por ejemplo, en el 95% de las muestras, el intervalo contendrá el verdadero . No entiendo cómo el SE, una medida de incertidumbre, aumenta con . Si simplemente cambio mis datos, de modo que , mi incertidumbre disminuye. Eso parece irracional. $[\hat{\beta}_0-2SE,\hat{\beta}_0+2SE]$ $\beta_0$ $\bar{x}$ $\bar{x}=0$

Una interpretación análoga se - en la versión uncentered de mis corresponde a mi predicción en , mientras que en los datos de corresponde a mi predicción en . Entonces, ¿significa esto que mi incertidumbre sobre mi predicción en es mayor que mi incertidumbre sobre mi predicción en ? Eso también parece irrazonable, el error tiene la misma varianza para todos los valores de $\hat{\beta}_0$ $x=0$ $\hat{\beta}_0$ $x=\bar{x}$ $x=0$ $x=\bar{x}$ $\epsilon$ $x$ , por lo que mi incertidumbre en mis valores predichos debería ser la misma para todas las . $x$

Hay lagunas en mi entendimiento, estoy seguro. ¿Podría alguien ayudarme a entender lo que está pasando?

regression interpretation standard-error elexhobby
fuente

¿Alguna vez has retrocedido algo en una cita? Muchos sistemas informáticos comienzan sus fechas en el pasado distante, a menudo hace más de 100 o más de 2000 años. La intersección estima el valor de sus datos extrapolados hacia atrás a esa hora de inicio. ¿Cuán seguro estaría, por ejemplo, del producto interno bruto de Irak en el año 0 CE basado en la regresión de una serie de datos del siglo XXI?

whuber

Estoy de acuerdo, tiene sentido si lo piensas de esta manera. Esto, y la respuesta de Gung, aclaran las cosas.

Elexhobby

Esta respuesta da una explicación intuitiva, con diagramas) de cómo surge, al proyectar la línea ajustada en términos de ajuste en la media

(la línea ajustada pasa por

) y muestra por qué la posición de donde la línea puede ir se extiende a medida que te alejas de

(que es causada por la incertidumbre en la pendiente).

\bar{x}

$\bar x$

(\bar{x}, \bar{y})

$(\bar x,\bar y)$

\bar{x}

$\bar x$

Glen_b -Reinstalar a Monica

Respuestas:

Debido a que la línea de regresión ajustada por mínimos cuadrados ordinarios necesariamente pasará por la media de sus datos (es decir, ), al menos mientras no suprima la intersección, incertidumbre sobre el valor verdadero de pendiente no tiene efecto en la posición vertical de la línea en la media de (es decir, a ). Esto se traduce en menos incertidumbre vertical en de lo que tiene más lejos de que está. Si la intersección, donde es $(\bar x, \bar y)$ $x$ $\hat y_{\bar x}$ $\bar x$ $\bar x$ $x=0$ $\bar x$ , esto minimizará su incertidumbre sobre el verdadero valor de . En términos matemáticos, esto se traduce en el valor más pequeño posible del error estándar para . $\beta_0$ $\hat\beta_0$

Aquí hay un ejemplo rápido en R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

enter image description here

$x$ $0$ $(\bar x, \bar y)$ $\hat y$ $\bar x$ $SE(\hat\beta_0)$ $x=10$ $x=0$

$y$ $x$ $x_\text{new}$

gung - Restablece a Monica
fuente

x = x^{'}

$x=x'$

x

$x$

\bar{x} = 0

$\bar{x}=0$

\bar{x} = x^{'}

$\bar{x}=x'$

(x^{'} - \bar{x})^{2}

$(x^\prime - \bar{x})^2$

{\bar{x}}^{2}

$\bar{x}^2$

@elexhobby, agregué información para responder a su comentario, es posible que también desee ver el material vinculado. Avísame si aún necesitas más.

gung - Restablece a Monica

S E ({\hat{β}}_{1}) = \frac{σ^{2}}{\sum (x_{i} - \bar{x})^{2}}

$SE(\hat{\beta}_1)=\frac{\sigma^2}{\sum(x_i-\bar{x})^2}$

x_{n e w}

$x_{new}$

S E ({\hat{β}}_{1}) (x_{n e w} - \bar{x})^{2}

$SE(\hat{\beta}_1)(x_{new}-\bar{x})^2$

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ . Combine these together, and we get the uncertainty in the predicted value due to uncertainty in

{\hat{β}}_{1}

$\hat{\beta}_1$ and

{\hat{β}}_{0}

$\hat{\beta}_0$ is

\frac{σ^{2}}{n} + \frac{σ^{2} (x_{n e w} - \bar{x})^{2}}{\sum (x_{i} - \bar{x})^{2}}

$\frac{\sigma^2}{n}+\frac{\sigma^2(x_{new}-\bar{x})^2}{\sum(x_i-\bar{x})^2}$ . Correct me if I'm wrong.

elexhobby

Furthermore, it is clear why the error in the vertical position is

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ - we know that the line has to pass through

\bar{y}

$\bar{y}$ at

x = \bar{x}

$x=\bar{x}$ . Now

\bar{y}

$\bar{y}$ contains the average of

n

$n$ iid errors, and hence will have SE equal to

\frac{σ^{2}}{n}

$\frac{\sigma^2}{n}$ . Wow! Thanks a lot for your diagram and clear explanation, I really appreciate.

elexhobby