En regresión lineal, he encontrado un resultado encantador que si encajamos en el modelo
entonces, si estandarizamos y centramos los datos , X 1 y X 2 ,
Esto me parece una versión de 2 variables de para la regresión y = m x + c , lo cual es agradable.
Pero la única prueba que conozco no es de ninguna manera constructiva o perspicaz (ver más abajo), y sin embargo, al mirarlo, parece que debería ser fácilmente comprensible.
Pensamientos de ejemplo:
- Los parámetros y β 2 nos dan la 'proporción' de X 1 y X 2 en Y , por lo que estamos tomando las proporciones respectivas de sus correlaciones ...
- Las s son correlaciones parciales, R 2 es la correlación múltiple al cuadrado ... correlaciones multiplicadas por correlaciones parciales ...
- Si ortogonalizamos primero, entonces los s serán C o v / V a r ... ¿este resultado tiene algún sentido geométrico?
Ninguno de estos hilos parece llevarme a ningún lado. ¿Alguien puede proporcionar una explicación clara de cómo entender este resultado?
Prueba insatisfactoria
y
QED
regression
linear-model
r-squared
proof
Korone
fuente
fuente
Respuestas:
La matriz del sombrero es idempotente.
(Esta es una forma lineal-algebraica de afirmar que OLS es una proyección ortogonal del vector de respuesta en el espacio abarcado por las variables).
Recordemos que por definición
dónde
es la suma de los cuadrados de los valores predichos (centrados) y
es la suma de cuadrados de los valores de respuesta (centrados). Estandarizar antemano a la varianza de la unidad también implicaY
Recordemos también que los coeficientes estimados están dados por
De dónde
donde es la "matriz hat" efectuar la proyección de Y sobre su ajuste de mínimos cuadrados Y . Es simétrico (que es obvio por su propia forma) e idempotente . Aquí hay una prueba de esto último para aquellos que no están familiarizados con este resultado. Es solo barajar paréntesis:H Y Y^
Por lo tanto
El movimiento crucial en el medio utilizó la idempotencia de la matriz del sombrero. El lado derecho es tu fórmula mágica porque es el (fila) vector de coeficientes de correlación entreYy las columnas deX.1nY′X Y X
fuente
^{-}
lugar de en^{-1}
todas partes?Las siguientes tres fórmulas son bien conocidas, se encuentran en muchos libros sobre regresión lineal. No es difícil derivarlos.
Si sustituye las dos betas en su ecuación , obtendrá la fórmula anterior para R-cuadrado.R2= rYX1β1+ rYX2β2
Aquí hay una "visión" geométrica. A continuación hay dos imágenes que muestran la regresión de por X 1 y X 2 . Este tipo de representación se conoce como variables como vectores en el espacio temático ( lea de qué se trata). Las imágenes se dibujan después de centrar las tres variables y, por lo tanto, (1) la longitud de cada vector = st. desviación de la variable respectiva y (2) ángulo (su coseno) entre cada dos vectores = correlación entre las variables respectivas.Y X1 X2
es la predicción de regresión (proyección ortogonal deYen "plano X"); ees el término de error; cos∠Y Y =| Y | /| Y| , coeficiente de correlación múltiple.Y^ Y mi c o s ∠ YY^= | Y^El | /| YEl |
La imagen de la izquierda representa las coordenadas oblicuas de Y sobre las variables X 1 y X 2 . Sabemos que tales coordenadas relacionan los coeficientes de regresión. A saber, las coordenadas son: b 1 | X 1 | = b 1 σ X 1 y b 2 | X 2 | = b 2 σ X 2 .Y^ X1 X2 si1El | X1El | = b1σX1 si2El | X2El | = b2σX2
Y la imagen de la derecha muestra las coordenadas perpendiculares correspondientes . Sabemos que tales coordenadas relacionan los coeficientes de correlación de orden cero (estos son cosenos de proyecciones ortogonales). Si es la correlación entre Y y X 1 y r * 1 es la correlación entre Y y X 1 entonces la coordenada es r 1 | Y | = r 1 σ Y = r ∗ 1 | Y | = rr1 Y X1 r∗1 Y^ X1 . Del mismo modo para la otra coordenada,r2| Y| =r2σY=r ∗ 2 | Y | =R * 2 σ Y .r1El | YEl | = r1σY= r∗1El | Y^El | = r∗1σY^ r2El | YEl | = r2σY= r∗2El | Y^El | = r∗2σY^
Hasta ahora eran explicaciones generales de la representación del vector de regresión lineal. Ahora pasamos a la tarea para mostrar cómo puede conducir a .R2= r1β1+ r2β2
En primer lugar, recuerde que en su pregunta @Corone propuso la condición de que la expresión es verdadera cuando las tres variables están estandarizadas , es decir, no solo centradas sino también escaladas a la varianza 1. Entonces (es decir, implicando para ser las "partes de trabajo" de los vectores) tenemos coordenadas iguales a: b 1 | X 1 | = β 1 ; b 2 | X 2 | = β 2 ;El | X1El | = | X2El | = | YEl | =1 si1El | X1El | = β1 si2El | X2El | = β2 ; r 2 | Y | = r 2 ; así como R = | Y | / | Y | = | Y | . Redibuje, bajo estas condiciones, solo el "plano X" de las imágenes de arriba:r1El | YEl | = r1 r2El | YEl | = r2 R = | Y^El | / | YEl | = | Y^El |
points X axes
axes X axes
Lo mismo es cierto para cualquier cantidad de predictores X. Desafortunadamente, es imposible dibujar imágenes similares con muchos predictores.
fuente