¿Hay una manera elegante / perspicaz de comprender esta identidad de regresión lineal para múltiples

9

En regresión lineal, he encontrado un resultado encantador que si encajamos en el modelo

mi[Y]=β1X1+β2X2+C,

entonces, si estandarizamos y centramos los datos , X 1 y X 2 ,YX1X2

R2=Cor(Y,X1)β1+Cor(Y,X2)β2.

Esto me parece una versión de 2 variables de para la regresión y = m x + c , lo cual es agradable.R2=Cor(Y,X)2y=metroX+C

Pero la única prueba que conozco no es de ninguna manera constructiva o perspicaz (ver más abajo), y sin embargo, al mirarlo, parece que debería ser fácilmente comprensible.

Pensamientos de ejemplo:

  • Los parámetros y β 2 nos dan la 'proporción' de X 1 y X 2 en Y , por lo que estamos tomando las proporciones respectivas de sus correlaciones ...β1β2X1X2Y
  • Las s son correlaciones parciales, R 2 es la correlación múltiple al cuadrado ... correlaciones multiplicadas por correlaciones parciales ...βR2
  • Si ortogonalizamos primero, entonces los s serán C o v / V a r ... ¿este resultado tiene algún sentido geométrico?βCov/ /Vunar

Ninguno de estos hilos parece llevarme a ningún lado. ¿Alguien puede proporcionar una explicación clara de cómo entender este resultado?


Prueba insatisfactoria

R2=SSrmisolSSTot=SSrmisolnorte=(β1X1+β2X2)2=β12X12+β22X22+2β1β2X1X2

y

Cor(Y,X1)β1+Cor(Y,X2)β2=YX1β1+YX2β2=β1X12+β2X1X2β1+β1X1X2+β2X22β2=β12X12+β22X22+2β1β2X1X2

QED

Korone
fuente
Debe utilizar variables estandarizadas, de lo contrario no se garantiza que su fórmula para se encuentre entre 0 y 1 . Aunque esta suposición aparece en su prueba, ayudaría a hacerla explícita desde el principio. También estoy desconcertado sobre lo que realmente está haciendo: su R 2 claramente es una función del modelo solo, no tiene nada que ver con los datos, pero comienza a mencionar que ha "ajustado" el modelo a algo. R201R2
whuber
¿Su resultado superior no se mantiene si X1 y X2 no están correlacionados?
gung - Restablece a Monica
@gung No lo creo, la prueba en la parte inferior parece decir que funciona independientemente. Este resultado también me sorprende, por lo tanto, quiero una "prueba de comprensión clara"
Korone
@whuber No estoy seguro de lo que quieres decir con "función del modelo solo". Me refiero simplemente a la de OLS sencillos con dos variables predicter. Es decir, esta es la versión de 2 variables de R 2 = C o r ( Y , X ) 2R2R2=Cor(Y,X)2
Korone
No puedo decir si su son los parámetros o las estimaciones. βi
whuber

Respuestas:

9

La matriz del sombrero es idempotente.

(Esta es una forma lineal-algebraica de afirmar que OLS es una proyección ortogonal del vector de respuesta en el espacio abarcado por las variables).


Recordemos que por definición

R2=ESSTSS

dónde

ESS=(Y^)Y^

es la suma de los cuadrados de los valores predichos (centrados) y

TSS=YY

es la suma de cuadrados de los valores de respuesta (centrados). Estandarizar antemano a la varianza de la unidad también implicaY

TSS=YY=n.

Recordemos también que los coeficientes estimados están dados por

β^=(XX)XY,

De dónde

Y^=Xβ^=X(XX)XY=HY

donde es la "matriz hat" efectuar la proyección de Y sobre su ajuste de mínimos cuadrados Y . Es simétrico (que es obvio por su propia forma) e idempotente . Aquí hay una prueba de esto último para aquellos que no están familiarizados con este resultado. Es solo barajar paréntesis:HYY^

HH=HH=(X(XX)X)(X(XX)X)=X(XX)(XX)(XX)X=X(XX)X=H.

Por lo tanto

R2=ESSTSS=1n(Y^)Y^=1nYHHY=1nYHY=(1nYX)β^.

El movimiento crucial en el medio utilizó la idempotencia de la matriz del sombrero. El lado derecho es tu fórmula mágica porque es el (fila) vector de coeficientes de correlación entreYy las columnas deX.1nYXYX

whuber
fuente
(+1) Muy buen artículo. ¿Pero por qué en ^{-}lugar de en ^{-1}todas partes?
ameba
1
@amoeba Es un inverso generalizado , puesto allí para manejar los casos donde puede ser singular. XX
whuber
44
@amoeba Penrose, en su artículo original ( A Generalized Inverse for Matrices , 1954) usó la notación . Me gusta ni eso ni el A + notación, ya que se confunden fácilmente con conjugados, traspuestas, o traspuestas conjugadas, mientras que la A - notación es tan sugerente de un inverso al lector casual puede salirse con pensar en ello como un - 1 si les gusta. Eres un buen lector, pero gracias por notarlo. UNAUNA+UNA-UNA-1
whuber
1
Motivación interesante y convincente, pero ¿puedo preguntar si esta notación es algo que ocasionalmente se usa en otro lugar o es su propia invención?
ameba
55
@amoeba: Sí, esta notación aparece en otra parte, incluso en los textos clásicos de Graybill sobre el modelo lineal.
cardenal
4

Las siguientes tres fórmulas son bien conocidas, se encuentran en muchos libros sobre regresión lineal. No es difícil derivarlos.

β1=rYX1-rYX2rX1X21-rX1X22

β2=rYX2-rYX1rX1X21-rX1X22

R2=rYX12+rYX22-2rYX1rYX2rX1X21-rX1X22

Si sustituye las dos betas en su ecuación , obtendrá la fórmula anterior para R-cuadrado.R2=rYX1β1+rYX2β2


Aquí hay una "visión" geométrica. A continuación hay dos imágenes que muestran la regresión de por X 1 y X 2 . Este tipo de representación se conoce como variables como vectores en el espacio temático ( lea de qué se trata). Las imágenes se dibujan después de centrar las tres variables y, por lo tanto, (1) la longitud de cada vector = st. desviación de la variable respectiva y (2) ángulo (su coseno) entre cada dos vectores = correlación entre las variables respectivas.YX1X2

ingrese la descripción de la imagen aquí

es la predicción de regresión (proyección ortogonal deYen "plano X"); ees el término de error; cosY Y =| Y | /| Y| , coeficiente de correlación múltiple.Y^YmiCosYY^=El |Y^El |/ /El |YEl |

La imagen de la izquierda representa las coordenadas oblicuas de Y sobre las variables X 1 y X 2 . Sabemos que tales coordenadas relacionan los coeficientes de regresión. A saber, las coordenadas son: b 1 | X 1 | = b 1 σ X 1 y b 2 | X 2 | = b 2 σ X 2 .Y^X1X2si1El |X1El |=si1σX1si2El |X2El |=si2σX2

Y la imagen de la derecha muestra las coordenadas perpendiculares correspondientes . Sabemos que tales coordenadas relacionan los coeficientes de correlación de orden cero (estos son cosenos de proyecciones ortogonales). Si es la correlación entre Y y X 1 y r * 1 es la correlación entre Y y X 1 entonces la coordenada es r 1 | Y | = r 1 σ Y = r 1 | Y | = rr1YX1r1Y^X1 . Del mismo modo para la otra coordenada,r2| Y| =r2σY=r2 | Y | =R * 2 σ Y .r1El |YEl |=r1σY=r1El |Y^El |=r1σY^r2El |YEl |=r2σY=r2El |Y^El |=r2σY^

Hasta ahora eran explicaciones generales de la representación del vector de regresión lineal. Ahora pasamos a la tarea para mostrar cómo puede conducir a .R2=r1β1+r2β2

En primer lugar, recuerde que en su pregunta @Corone propuso la condición de que la expresión es verdadera cuando las tres variables están estandarizadas , es decir, no solo centradas sino también escaladas a la varianza 1. Entonces (es decir, implicando para ser las "partes de trabajo" de los vectores) tenemos coordenadas iguales a: b 1 | X 1 | = β 1 ; b 2 | X 2 | = β 2 ;El |X1El |=El |X2El |=El |YEl |=1si1El |X1El |=β1si2El |X2El |=β2 ; r 2 | Y | = r 2 ; así como R = | Y | / | Y | = | Y | . Redibuje, bajo estas condiciones, solo el "plano X" de las imágenes de arriba:r1El |YEl |=r1r2El |YEl |=r2R=El |Y^El |/ /El |YEl |=El |Y^El |

ingrese la descripción de la imagen aquí

Y^RPAG=SCPAGpoints X axesSCaxes X axes

X1X2r12r1=β1+β2r12r2=β1r12+β2

rβR2=r1β1+r2β2R2=β12+β22+2β1β2r12 β1β2r12

Lo mismo es cierto para cualquier cantidad de predictores X. Desafortunadamente, es imposible dibujar imágenes similares con muchos predictores.

ttnphns
fuente
1
También es agradable ver que se construyó de esta manera, pero esto no agrega tanta información en comparación con la respuesta de Whuber
Korone
2
@Corone, agregué algunas "ideas" que podrías tomar.
ttnphns
1
r1=β1+β2r12
Edición realmente genial, cambio aceptado.
Korone