Interpretación geométrica del coeficiente de correlación múltiple

24

Estoy interesado en el significado geométrico de la correlación múltiple R y el coeficiente de determinación R2 en la regresión yi=β1+β2x2,i++βkxk,i+ϵi , o en notación vectorial ,

y=Xβ+ϵ

Aquí la matriz de diseño X tiene n filas y k columnas, de las cuales la primera es x1=1n , un vector de 1s que corresponde a la intersección β1 .

La geometría es más interesante en el espacio sujeto n dimensional que en el espacio variable k dimensional. Defina la matriz del sombrero:

H=X(XX)1X

Esta es una proyección ortogonal en el espacio de la columna de X , es decir, el plano a través del origen atravesado por los k vectores que representan cada variable xi , el primero de los cuales es 1n . Entonces H proyecta el vector de las respuestas observadas y sobre su "sombra" en el piso, el vector de valores ajustados y = H y , y si miramos a lo largo del camino de la proyección vemos el vector de residuos e = y - yy^=Hye=yy^forma el tercer lado de un triángulo. Esto debería proporcionarnos dos rutas para una interpretación geométrica de R2 :

  1. El cuadrado del coeficiente de correlación múltiple, R , que se define como la correlación entre y y Y . Esto aparecerá geométricamente como el coseno de un ángulo.y^
  2. SSresidual=i=1nei2=e2

Estaría encantado de ver una breve cuenta que explica:

  • Los detalles más finos para (1) y (2),
  • Por qué (1) y (2) son equivalentes,
  • Brevemente, cómo la visión geométrica nos permite visualizar las propiedades básicas de , por ejemplo, por qué va a 1 cuando la variación de ruido va a 0. (Después de todo, si no podemos intuir a partir de nuestra visualización, entonces no es más que un bonita foto)R2

Aprecio que esto sea más sencillo si las variables se centran primero, lo que elimina la intercepción de la pregunta. Sin embargo, en la mayoría de las cuentas de libros de texto que introducen regresión múltiple, la matriz de diseño es la que expuse. Por supuesto, está bien si una exposición profundiza en el espacio abarcado por las variables centradas, pero para conocer el álgebra lineal del libro de texto, sería muy útil relacionar esto con lo que está sucediendo geométricamente en la situación no centrada. Una respuesta realmente perspicaz podría explicar qué se descompone exactamente geométricamente cuando se cae el término de intercepción, es decir, cuando el vector1 nX1nse elimina del conjunto de expansión. No creo que este último punto pueda abordarse considerando solo las variables centradas.

Lepisma
fuente

Respuestas:

47

Si hay un término constante en el modelo, entonces encuentra en el espacio de columna de (al igual que , que será útil más adelante). La ajustada es la proyección ortogonal de la observada en el plano formado por ese espacio de columna. Esto significa que el vector de residuos es perpendicular al plano, y por lo tanto a . Considerando el producto punto podemos ver , entonces los componentes de deben sumar cero. Como , concluimos que X ˉ Y 1 n Y Y e = y - y 1 n Σ n i = 1 e i =0 e Y i = ^ Y i + e i Σ n i = 1 Y i = Σ n i = 1 ^ Y i ˉ Y1nXY¯1nY^Ye=yy^1ni=1nei=0eYi=Yi^+eii=1nYi=i=1nYi^ para que las respuestas ajustadas y observadas tengan media .Y¯

Vectores en el espacio sujeto de regresión múltiple

Las líneas discontinuas del diagrama representan y , que son los vectores centrados para las respuestas observadas y ajustadas. El coseno del ángulo entre estos vectores será por lo tanto la correlación de y , que por definición es el coeficiente de correlación múltiple . El triángulo que forman estos vectores con el vector de residuos está en ángulo recto ya que encuentra en el plano, pero es ortogonal a él. Por lo tanto:Y - ˉ Y 1 n θ Y Y R Y - ˉ Y 1 n eYY¯1nY^Y¯1nθYY^RY^Y¯1ne

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

También podríamos aplicar Pitágoras al triángulo:

YY¯1n2=YY^2+Y^Y¯1n2

Que puede ser más familiar como:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Esta es la descomposición de las sumas de cuadrados, .SStotal=SSresidual+SSregression

La definición estándar para el coeficiente de determinación es:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Cuando las sumas de cuadrados se pueden dividir, se necesita un poco de álgebra directa para mostrar que esto es equivalente a la formulación de "proporción de varianza explicada",

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

Hay una forma geométrica de ver esto desde el triángulo, con un mínimo de álgebra. La fórmula de definición da y con la trigonometría básica podemos simplificar esto a . Este es el enlace entre y .cos 2 ( θ ) R 2 RR2=1sin2(θ)cos2(θ)R2R

Observe cuán vital fue para este análisis haber ajustado un término de intercepción, de modo que estuviera en el espacio de la columna. Sin esto, los residuos no se han resumido a cero, y la media de los valores ajustados no han coincidido con la media de . En ese caso no podríamos haber dibujado el triángulo; las sumas de cuadrados no se habrían descompuesto de manera pitagórica; no habría tenido la forma citada con frecuencia- ni ser el cuadrado de . En esta situación, algún software (incluido ) usa una fórmula diferente para completo . Y R 2 S S reg / S S total R R 21nYR2SSreg/SStotalRRR2

Lepisma
fuente
1
+1 Muy buen relato y figura. Me sorprende que solo tenga mi voto solitario.
ameba dice Reinstate Monica
2
+1. Tenga en cuenta que la figura de su respuesta, con "espacio de columna X", Y, Ypred como vectores, etc. es lo que se conoce en estadísticas multivariantes como "representación de espacio de sujeto (reducido)" ( vea , con enlaces adicionales donde lo he usado) )
ttnphns