Relación entre

40

Digamos que tengo dos matrices unidimensionales, y . Cada uno contiene 100 puntos de datos. son los datos reales, y es la predicción del modelo. En este caso, el valor sería: Mientras tanto, esto sería igual al valor cuadrado del coeficiente de correlación, Ahora si cambio los dos: son los datos reales, y es la predicción del modelo. De la ecuación , porque al coeficiente de correlación no le importa cuál es primero, ela 2 a 1 a 2 R 2 R 2 = 1 - S S r e sa1a2a1a2R2R 2 = ( Coeficiente de correlación ) 2

R2=1SSresSStot  (1).
a 2 a 1 ( 2 ) R 2
R2=(Coeficiente de correlación)2(2).
una2una1(2)R2 valor sería el mismo. Sin embargo, de la ecuación , , el valor cambiará, porque ha cambiado si cambiamos de a ; Mientras tanto, no cambia.S S t o t = i ( y i - ˉ y ) 2 R 2 S S t o t y a 1 a 2 S S r e s = i ( f i - ˉ y ) 2(1)SStot=yo(yyo-y¯)2R2SStotyuna1una2SSrmis=yo(Fyo-y¯)2

Mi pregunta es: ¿Cómo pueden contradecirse?

Editar :

  1. Me preguntaba eso, será la relación en la ecuación. (2) sigue en pie, si no es una regresión lineal simple, es decir, la relación entre IV y DV no es lineal (podría ser exponencial / log)?

  2. ¿Se mantendrá esta relación si la suma de los errores de predicción no es igual a cero?

Shawn Wang
fuente
Esta presentación me pareció muy útil y no técnica: google.com/…
ihadanny el

Respuestas:

19

Esto es cierto que cambiará ... pero olvidó el hecho de que la suma de los cuadrados de la regresión también cambiará. Entonces, consideremos el modelo de regresión simple y denotemos el coeficiente de correlación como r 2 x y = S 2 x ySStot , donde utilicé el subíndicexypara enfatizar el hecho de quexes la variable independiente eyes la variable dependiente. Obviamente,r2 x y no cambia si intercambiasxcony. Podemos mostrar fácilmente queSSRxy=Syy(R2 x y ), dondeSSRxyes la suma de regresión de cuadrados y rxy2=Sxy2SxxSyyxyxyrxy2xySSRxy=Syy(Rxy2)SSRxy es la suma total de cuadrados donde x es independiente e y es variable dependiente. Por lo tanto: R 2 x y = S S R x ySyyxydondeSSExyes la suma residual correspondiente de cuadrados dondexes independiente eyes variable dependiente. Tenga en cuenta que en este caso, tenemosSSExy=b2 x y Sxxconb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (Ver, por ejemplo, la ecuación (34) - (41)aquí.) Por lo tanto:R2 x y =Syy- S 2 x yb=SxySxXClaramente, la ecuación anterior es simétrica con respecto axey. En otras palabras:R2 x y =R2 y x . Para resumir cuando cambiaxconyen el modelo de regresión simple, tanto el numerador como el denominador deR2 x y =SSRxy
RXy2=Syy-SXy2SXX2.SXXSyy=SyySXX-SXy2SXX.Syy.
Xy
RXy2=RyX2.
Xy cambiará de manera queR2 x y =R2 y x .RXy2=SSRXySyyRXy2=RyX2.
Stat
fuente
Muchas gracias! Noté que esto podría estar donde estaba equivocado: solo se mantiene si 1) la predicción del modelo es una línea recta y 2) la media de la predicción del modelo es igual a la media de los puntos de muestra. Si la relación entre el DV y IV no es una línea recta, o la suma de los errores de predicción no es cero, la relación no se mantendrá. ¿Podría decirme si esto es correcto? R2=r2
Shawn Wang
1
Pensé en esto porque has estado usando , mientras estaba usando la ecuación que publiqué en el OP. Estas dos ecuaciones son equivalentes entre sí solo cuando la suma de los errores de predicción es cero. Por lo tanto, en mi OP, S S r e s = i ( f i - ˉ y ) 2 no cambia mientras S S t o t cambia, y por lo tanto R 2R2=SSreg/SStotSSres=i(fiy¯)2SStotR2está cambiado.
Shawn Wang
¿Por casualidad tiene una referencia sobre cómo resolver esto para el caso general de los gaussianos con variante p?
jmb
26

Una manera de interpretar el coeficiente de determinación es mirar como el coeficiente de correlación al cuadrado de Pearson entre los valores observados y i y los valores ajustados de Y i .R2yyoy^yo

La prueba completa de cómo derivar el coeficiente de determinación R2 del Coeficiente de correlación de Pearson cuadrado entre los valores observados yi y los valores ajustados y ^ i se puede encontrar en el siguiente enlace:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

En mi opinión, debería ser bastante fácil de entender, solo siga los pasos individuales. Supongo que mirarlo es esencial para entender cómo funciona realmente la relación entre las dos figuras clave.

Andreas Dibiasi
fuente
6

En caso de regresión lineal simple con un solo predictor . Pero en la regresión lineal múltiple con más de un predictor, el concepto de correlación entre los predictores y la respuesta no se extiende automáticamente. La fórmula obtiene: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

El cuadrado de la correlación entre la respuesta y el modelo lineal ajustado.

un hombre
fuente
5

@Stat ha proporcionado una respuesta detallada. En mi breve respuesta, mostraré brevemente de manera algo diferente cuál es la similitud y la diferencia entre y r 2 .rr2

rYXXYr.30

r2r2=(doovσXσy)2=El |doovEl |σX2El |doovEl |σy2r2pagsropagspagsropagsr

doovσX2σy2doovdoovσX2σy2σXσyr2r

rr2Y~XX~Y

ttnphns
fuente
R2R2R2
El coeficiente de determinación o R-cuadrado es un concepto más amplio que r ^ 2 que se trata solo de regresión lineal simple. Lea wikipedia en.wikipedia.org/wiki/Coefficient_of_determination .
ttnphns
¡Gracias de nuevo! Eso sí entiendo. Mi pregunta es: para regresiones más complejas, ¿puedo seguir ajustando el valor r para obtener el coeficiente de determinación?
Shawn Wang
1
Para una "regresión compleja", obtienes R-cuadrado, pero no obtienes r.
ttnphns
1

R2=r2R2

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

R2R2

R2r2R2rρ

Nick Stauner
fuente
1
R2=-0.1468SSR>SST-R2R2