Estoy tratando de entender la notación matricial y trabajando con vectores y matrices.
En este momento me gustaría entender cómo se calcula el vector de estimaciones de coeficientes en regresión múltiple.
La ecuación básica parece ser
Ahora, ¿cómo resolvería un vector aquí?
Editar : Espera, estoy atascado. Estoy aquí ahora y no sé cómo continuar:
Con para todo lo que la intercepción:i
¿Me puede apuntar en la dirección correcta?
regression
Alexander Engelhardt
fuente
fuente
smallmatrix
, por lo que no trató de editar, ya que la solución habitual de romper la fórmula en varias líneas no habría funcionado aquí.Respuestas:
Tenemos
Se puede mostrar escribiendo la ecuación explícitamente con componentes. Por ejemplo, escriba lugar de . Luego tome derivados con respecto a , , ..., y apile todo para obtener la respuesta. Para una ilustración rápida y fácil, puede comenzar con . β β 1 β 2 β p p = 2(β1,…,βp)′ β β1 β2 βp p=2
Con experiencia, uno desarrolla reglas generales, algunas de las cuales se dan, por ejemplo, en ese documento .
Editar para guiar la parte agregada de la pregunta
Con , tenemosp=2
La derivada con respecto a esβ1
Del mismo modo, la derivada con respecto a esβ2
Por lo tanto, la derivada con respecto a esβ=(β1,β2)′
Ahora, observe que puede reescribir la última expresión como
Por supuesto, todo se hace de la misma manera para una más grande .p
fuente
También puede usar fórmulas del libro de cocina Matrix . Tenemos
Ahora tome derivados de cada término. Es posible que desee notar que . La derivada del término con respecto a es cero. El plazo restantey ′ y ββ′X′y=y′Xβ y′y β
es de forma de función
en la fórmula (88) en el libro de la página 11, con , y . La derivada se da en la fórmula (89):A = X ′ X b = - 2 X ′ yx=β A=X′X b=−2X′y
entonces
Ahora desde obtenemos la solución deseada:(X′X)′=X′X
fuente
Aquí hay una técnica para minimizar la suma de cuadrados en la regresión que en realidad tiene aplicaciones a configuraciones más generales y que encuentro útil.
Intentemos evitar el cálculo de matriz de vectores por completo.
Supongamos que estamos interesados en minimizar donde , y . Suponemos por simplicidad que y .y
Para cualquier , obtenemos E=‖y-X β +X β -Xβ‖ 2 2 =‖y-X β ‖ 2 2 +‖β^∈Rp
Si podemos elegir (¡encontrar!) Un vector tal que el último término en el lado derecho sea cero para cada , entonces estaríamos , ya que eso implicaría que .β^ β minβE≥∥y−Xβ^∥22
Pero, para todos si y solo si y esta última ecuación es verdadera si y solo si . Entonces, se minimiza tomando .(β−β^)TXT(y−Xβ^)=0 β XT(y−Xβ^)=0 XTXβ^=XTy E β^=(XTX)−1XTy
Si bien esto puede parecer un "truco" para evitar el cálculo, en realidad tiene una aplicación más amplia y hay algo de geometría interesante en juego.
Un ejemplo en el que esta técnica hace que una derivación sea mucho más simple que cualquier enfoque de cálculo matriz-vector es cuando generalizamos al caso de la matriz. Deje , y . Supongamos que deseamos minimizar sobre toda la matriz de parámetros . Aquí es una matriz de covarianza.Y∈Rn×p X∈Rn×q B∈Rq×p
Un enfoque completamente análogo a lo anterior establece rápidamente que se alcanza el mínimo de tomando Es decir, en un entorno de regresión donde la respuesta es un vector con covarianza y las observaciones son independientes, la estimación de MCO se logra haciendo regresiones lineales separadas en los componentes de la respuesta.E
fuente
Una forma que puede ayudarlo a comprender es no usar álgebra matricial y diferenciar con respecto a cada componente, y luego "almacenar" los resultados en un vector de columna. Entonces tenemos:
Ahora tiene de estas ecuaciones, una para cada beta. Esta es una aplicación simple de la regla de la cadena:p
-2 N ∑ i=
Ahora podemos reescribir la suma dentro del paréntesis como Entonces obtienes:∑pj=1Xijβj=xTiβ
Ahora tenemos de estas ecuaciones, y las "apilaremos" en un vector de columna. Observe cómo es el único término que depende de , por lo que podemos apilar esto en el vector y obtenemos:p Xik k xi
Ahora podemos tomar la beta fuera de la suma (pero debemos permanecer en RHS de la suma), y luego tomar la inversión:
fuente