Solución analítica para estimaciones de coeficientes de regresión lineal

9

Estoy tratando de entender la notación matricial y trabajando con vectores y matrices.

En este momento me gustaría entender cómo se calcula el vector de estimaciones de coeficientes en regresión múltiple.β^

La ecuación básica parece ser

ddβ(yXβ)(yXβ)=0.

Ahora, ¿cómo resolvería un vector β aquí?

Editar : Espera, estoy atascado. Estoy aquí ahora y no sé cómo continuar:

ddβ((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))((y1y2yn)(1x11x12x1p1x21x22x2p1xn1xn2xnp)(β0β1βp))

ddβi=1n(yi(1xi1xi2xip)(β0β1βp))2

Con para todo lo que la intercepción:ixi0=1i

ddβi=1n(yik=0pxikβk)2

¿Me puede apuntar en la dirección correcta?

Alexander Engelhardt
fuente
@GaBorgulya, gracias por la edición, no lo sabía smallmatrix, por lo que no trató de editar, ya que la solución habitual de romper la fórmula en varias líneas no habría funcionado aquí.
mpiktas

Respuestas:

12

Tenemos

ddβ(yXβ)(yXβ)=2X(yXβ) .

Se puede mostrar escribiendo la ecuación explícitamente con componentes. Por ejemplo, escriba lugar de . Luego tome derivados con respecto a , , ..., y apile todo para obtener la respuesta. Para una ilustración rápida y fácil, puede comenzar con . β β 1 β 2 β p p = 2(β1,,βp)ββ1β2βpp=2

Con experiencia, uno desarrolla reglas generales, algunas de las cuales se dan, por ejemplo, en ese documento .

Editar para guiar la parte agregada de la pregunta

Con , tenemosp=2

(yXβ)(yXβ)=(y1x11β1x12β2)2+(y2x21β1x22β2)2

La derivada con respecto a esβ1

2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)

Del mismo modo, la derivada con respecto a esβ2

2x12(y1x11β1x12β2)2x22(y2x21β1x22β2)

Por lo tanto, la derivada con respecto a esβ=(β1,β2)

(2x11(y1x11β1x12β2)2x21(y2x21β1x22β2)2x12(y1x11β1x12β2)2x22(y2x21β1x22β2))

Ahora, observe que puede reescribir la última expresión como

2(x11x21x12x22)(y1x11β1x12β2y2x21β1x22β2)=2X(yXβ)

Por supuesto, todo se hace de la misma manera para una más grande .p

ocram
fuente
Impresionante, estaba buscando exactamente ese tipo de pdf. ¡Gracias una tonelada!
Alexander Engelhardt
Oh, pensé que podría hacerlo yo mismo ahora, pero no puedo. ¿Me puede decir si mis pasos son correctos o si debería tomar "otra forma" de resolver esto?
Alexander Engelhardt
@Alexx Hardt: Mi primera ecuación en la edición es la misma que su última ecuación en el caso particular donde p = 2. Entonces, puede imitar mis cálculos para los componentes 3, 4, ..., p.
ocram
Gracias de nuevo :) Creo que realmente usaré las tres sugerencias. Estoy construyendo un .pdf que explica y resume el álgebra de matriz de estadísticas básicas, porque de alguna manera nunca quise aprenderlo cuando lo aprendí en mis clases. Espero que resolverlo de tres maneras diferentes me ayude a entenderlo mejor.
Alexander Engelhardt
Oh, pero esto es para p = 2 yn = 2, ¿verdad? Lo escribiré con n = 3, creo.
Alexander Engelhardt
13

También puede usar fórmulas del libro de cocina Matrix . Tenemos

(yXβ)(yXβ)=yyβXyyXβ+βXXβ

Ahora tome derivados de cada término. Es posible que desee notar que . La derivada del término con respecto a es cero. El plazo restantey y ββXy=yXβyyβ

βXXβ2yXβ

es de forma de función

f(x)=xAx+bx,

en la fórmula (88) en el libro de la página 11, con , y . La derivada se da en la fórmula (89):A = X X b = - 2 X yx=βA=XXb=2Xy

fx=(A+A)x+b

entonces

β(yXβ)(yXβ)=(XX+(XX))β2Xy

Ahora desde obtenemos la solución deseada:(XX)=XX

XXβ=Xy
mpiktas
fuente
+1 mpiktas: su solución es más ingeniosa que la mía y creo que debería usarse en situaciones prácticas más complejas.
ocram
1
@ocram, gracias. No lo llamaría ingenioso, es una aplicación estándar de fórmulas existentes. Solo necesita conocer las fórmulas :)
mpiktas
8

Aquí hay una técnica para minimizar la suma de cuadrados en la regresión que en realidad tiene aplicaciones a configuraciones más generales y que encuentro útil.

Intentemos evitar el cálculo de matriz de vectores por completo.

Supongamos que estamos interesados ​​en minimizar donde , y . Suponemos por simplicidad que y .y

E=(yXβ)T(yXβ)=yXβ22,
yRnXRn×pβRppnrank(X)=p

Para cualquier , obtenemos E=y-X β +X β -Xβ 2 2 =y-X β 2 2 +β^Rp

E=yXβ^+Xβ^Xβ22=yXβ^22+X(ββ^)222(ββ^)TXT(yXβ^).

Si podemos elegir (¡encontrar!) Un vector tal que el último término en el lado derecho sea cero para cada , entonces estaríamos , ya que eso implicaría que .β^ βminβEyXβ^22

Pero, para todos si y solo si y esta última ecuación es verdadera si y solo si . Entonces, se minimiza tomando .(ββ^)TXT(yXβ^)=0βXT(yXβ^)=0XTXβ^=XTyEβ^=(XTX)1XTy


Si bien esto puede parecer un "truco" para evitar el cálculo, en realidad tiene una aplicación más amplia y hay algo de geometría interesante en juego.

Un ejemplo en el que esta técnica hace que una derivación sea mucho más simple que cualquier enfoque de cálculo matriz-vector es cuando generalizamos al caso de la matriz. Deje , y . Supongamos que deseamos minimizar sobre toda la matriz de parámetros . Aquí es una matriz de covarianza.YRn×pXRn×qBRq×p

E=tr((YXB)Σ1(YXB)T)
BΣ

Un enfoque completamente análogo a lo anterior establece rápidamente que se alcanza el mínimo de tomando Es decir, en un entorno de regresión donde la respuesta es un vector con covarianza y las observaciones son independientes, la estimación de MCO se logra haciendo regresiones lineales separadas en los componentes de la respuesta.E

B^=(XTX)1XTY.
Σp
cardenal
fuente
Afortunadamente, las reglas del foro permiten agregar +1 a cada respuesta. ¡Gracias por la educación, muchachos!
DWin
@DWin, ¿querías publicar esto debajo de los comentarios a la pregunta?
cardenal
Supongo que podría haberlo hecho. Revisé secuencialmente la pregunta y luego todas las respuestas (después de que el procesamiento de MathML dejó de moverse) y encontré que cada una de las respuestas era informativa. Acabo de dejar mi comentario en el tuyo porque fue donde dejé de leer.
DWin
1
@DWin, sí, el renderizado es un poco original. Pensé que podría haber pensado en el comentario para otra publicación ya que esta no tiene votos (arriba o abajo) y, por lo tanto, el comentario parecía estar fuera de lugar. Salud.
cardenal
1
@cardinal +1, truco útil. Esta pregunta resultó ser una muy buena referencia.
mpiktas
6

Una forma que puede ayudarlo a comprender es no usar álgebra matricial y diferenciar con respecto a cada componente, y luego "almacenar" los resultados en un vector de columna. Entonces tenemos:

βki=1N(Yij=1pXijβj)2=0

Ahora tiene de estas ecuaciones, una para cada beta. Esta es una aplicación simple de la regla de la cadena:p

-2 N i=

i=1N2(Yij=1pXijβj)1(βk[Yij=1pXijβj])=0
2i=1NXik(Yij=1pXijβj)=0

Ahora podemos reescribir la suma dentro del paréntesis como Entonces obtienes:j=1pXijβj=xiTβ

i=1NXikYii=1NXikxiTβ=0

Ahora tenemos de estas ecuaciones, y las "apilaremos" en un vector de columna. Observe cómo es el único término que depende de , por lo que podemos apilar esto en el vector y obtenemos:pXikkxi

i=1NxiYi=i=1NxixiTβ

Ahora podemos tomar la beta fuera de la suma (pero debemos permanecer en RHS de la suma), y luego tomar la inversión:

(i=1NxixiT)1i=1NxiYi=β
probabilidadislogica
fuente