Regresión a través del origen.

9

Tenemos los siguientes puntos: ¿Cómo podemos encontrar la mejor línea de ajuste través de los puntos? Mi calculadora tiene la opción de encontrar la mejor línea de ajuste través de estos puntos, que es:

(0,0)(1,51.8)(1.9,101.3)(2.8,148.4)(3.7,201.5)(4.7,251.1)(5.6,302.3)(6.6,350.9)(7.5,397.1)(8.5,452.5)(9.3,496.3)
y=axy=ax+b

y=53.28x+0.37

¿Cómo puedo encontrar el mejor ajuste ? Me parece que no podemos simplemente eliminar el sin compensar en el ?y=ax0.37a

EdwardHarrison
fuente
2
¿Hay alguna razón por la que quieres? La supresión de la intersección conduce a un modelo sesgado, excepto si la intersección es exactamente cero a infinitos decimales. Incluso entonces, no ganas mucha eficiencia.
gung - Restablecer Monica
1
Estos son los resultados de un experimento de física. Si tiene una intersección en y, conduciría a cosas completamente incorrectas.
EdwardHarrison
@gung ¿Eso significa que simplemente eliminamos el ? 0,37
EdwardHarrison
55
"Suprimir la intersección" no significa simplemente eliminar la estimación de su modelo, significa ajustar un modelo a través de una fórmula diferente que obliga a la línea a pasar por el origen.
gung - Restablecer Monica
66
"Experimento de física. La [...] intersección en [...] Y conduciría a cosas completamente incorrectas". Pero si los datos experimentales indican una intercepción (por cierto, podría verificar si el intervalo de confianza para la línea cubre el origen), esto me haría pensar mucho de dónde proviene la intercepción. Soy químico analítico. En química analítica, también tenemos un montón de relaciones que deberían ser lineales sin intercepción. Pero casi nunca están en la práctica, debido a los detalles esenciales de los instrumentos y medidas. Por lo tanto, generalmente vemos que suprimir la intercepción es una muy mala idea.
Cbeleites descontento con SX

Respuestas:

13

La estimación de mínimos cuadrados ordinarios de la pendiente cuando se suprime la intersección es:

β^=yo=1norteXyoyyoyo=1norteXyo2
gung - Restablece a Monica
fuente
10

@gung ha dado la estimación de OLS. Eso es lo que estabas buscando.

Sin embargo, cuando se trata de cantidades físicas donde la línea debe pasar por el origen, es común que la escala del error varíe con los valores de x (tener, aproximadamente, un error relativo constante ). En esa situación, los mínimos cuadrados ordinarios no ponderados serían inapropiados.

En esa situación, un enfoque (de varias posibilidades) sería tomar registros, restar las x de las y y estimar la pendiente logarítmica (de las variables originales) por la media de las diferencias.

Alternativamente, se pueden usar mínimos cuadrados ponderados. En el caso de un error relativo constante, se reduciría al uso del estimador (el promedio de todas las pendientes hasta el origen).β^=1norteyo=1norteyyoXyo

Hay otros enfoques (GLM por ejemplo), pero si lo está haciendo en una calculadora, me inclinaría por mi primera sugerencia.

También debe considerar la idoneidad de cualquier suposición que haga.


Pensé que podría ser instructivo agregar la derivación de la línea WLS a través del origen y luego mi "promedio de pendientes" y Gungs OLS son casos especiales:

El modelo es whereyyo=βXyo+εyo,Var(εyo)=wyoσ2

Queremos minimizarS=yowyo(yyo-βXyo)2

Sβ=-yo2Xyo.wyo(yyo-βXyo)

Estableciendo igual a cero para obtener la solución LS obtenemos , o .β^wyoXyoyyo=β^wyoXyo2β^=wyoXyoyyowyoXyo2

Cuando para todo , esto produce la solución OLS de gung.wyo1yo

Cuando (que es óptimo para el caso en que la dispersión aumenta con la media), se obtiene la solución anterior de "promedio de pendientes".wyo1/ /Xyo2

Glen_b -Reinstate a Monica
fuente