Regresión a través del origen.

Tenemos los siguientes puntos: ¿Cómo podemos encontrar la mejor línea de ajuste través de los puntos? Mi calculadora tiene la opción de encontrar la mejor línea de ajuste través de estos puntos, que es:

(0, 0) (1, 51.8) (1.9, 101.3) (2.8, 148.4) (3.7, 201.5) (4.7, 251.1) (5.6, 302.3) (6.6, 350.9) (7.5, 397.1) (8.5, 452.5) (9.3, 496.3)

$(0,0)(1,51.8)(1.9,101.3)(2.8,148.4)(3.7,201.5)(4.7,251.1) \\ (5.6,302.3)(6.6,350.9)(7.5,397.1)(8.5,452.5)(9.3,496.3)$

y = a x

$y=ax$

y = a x + b

$y=ax+b$

y = 53.28 x + 0.37

$y = 53.28x + 0.37$

¿Cómo puedo encontrar el mejor ajuste ? Me parece que no podemos simplemente eliminar el sin compensar en el ? $y=ax$ $0.37$ $a$

regression intercept EdwardHarrison
fuente

¿Hay alguna razón por la que quieres? La supresión de la intersección conduce a un modelo sesgado, excepto si la intersección es exactamente cero a infinitos decimales. Incluso entonces, no ganas mucha eficiencia.

gung - Restablecer Monica

Estos son los resultados de un experimento de física. Si tiene una intersección en y, conduciría a cosas completamente incorrectas.

EdwardHarrison

@gung ¿Eso significa que simplemente eliminamos el ?

0.37

$0.37$

EdwardHarrison

"Suprimir la intersección" no significa simplemente eliminar la estimación de su modelo, significa ajustar un modelo a través de una fórmula diferente que obliga a la línea a pasar por el origen.

gung - Restablecer Monica

"Experimento de física. La [...] intersección en [...] Y conduciría a cosas completamente incorrectas". Pero si los datos experimentales indican una intercepción (por cierto, podría verificar si el intervalo de confianza para la línea cubre el origen), esto me haría pensar mucho de dónde proviene la intercepción. Soy químico analítico. En química analítica, también tenemos un montón de relaciones que deberían ser lineales sin intercepción. Pero casi nunca están en la práctica, debido a los detalles esenciales de los instrumentos y medidas. Por lo tanto, generalmente vemos que suprimir la intercepción es una muy mala idea.

Cbeleites descontento con SX

Respuestas:

La estimación de mínimos cuadrados ordinarios de la pendiente cuando se suprime la intersección es:

\hat{β} = \frac{\sum_{yo = 1}^{norte} X_{yo} y_{yo}}{\sum_{yo = 1}^{norte} X_{yo}^{2}}

$\hat{\beta}=\frac{\sum_{i=1}^N x_iy_i}{\sum_{i=1}^N x_i^2}$

gung - Restablece a Monica
fuente

@gung ha dado la estimación de OLS. Eso es lo que estabas buscando.

Sin embargo, cuando se trata de cantidades físicas donde la línea debe pasar por el origen, es común que la escala del error varíe con los valores de x (tener, aproximadamente, un error relativo constante ). En esa situación, los mínimos cuadrados ordinarios no ponderados serían inapropiados.

En esa situación, un enfoque (de varias posibilidades) sería tomar registros, restar las x de las y y estimar la pendiente logarítmica (de las variables originales) por la media de las diferencias.

Alternativamente, se pueden usar mínimos cuadrados ponderados. En el caso de un error relativo constante, se reduciría al uso del estimador (el promedio de todas las pendientes hasta el origen). $\hat{\beta}=\frac{1}{N}\sum_{i=1}^N \frac{y_i}{x_i}$

Hay otros enfoques (GLM por ejemplo), pero si lo está haciendo en una calculadora, me inclinaría por mi primera sugerencia.

También debe considerar la idoneidad de cualquier suposición que haga.

Pensé que podría ser instructivo agregar la derivación de la línea WLS a través del origen y luego mi "promedio de pendientes" y Gungs OLS son casos especiales:

El modelo es where $y_i=\beta x_i+\varepsilon_i\,,$ $\text{Var}(\varepsilon_i)=w_i\sigma^2$

Queremos minimizar $S = \sum_i w_i(y_i-\beta x_i)^2$

$\frac{\partial S}{\partial \beta} = -\sum_i 2x_i.w_i(y_i-\beta x_i)$

Estableciendo igual a cero para obtener la solución LS obtenemos , o . $\hat{\beta}$ $\sum w_ix_iy_i = \hat{\beta} \sum w_ix_i^2$ $\hat{\beta}=\frac{\sum w_ix_iy_i}{\sum w_ix_i^2}$

Cuando para todo , esto produce la solución OLS de gung. $w_i\propto 1$ $i$

Cuando (que es óptimo para el caso en que la dispersión aumenta con la media), se obtiene la solución anterior de "promedio de pendientes". $w_i \propto 1/x_i^2$

Glen_b -Reinstate a Monica
fuente