relación entre de regresión simple y regresión múltiple

10

Una pregunta muy básica sobre el de las regresiones OLSR2

  1. ejecutar la regresión OLS y ~ x1, tenemos un , digamos 0.3R2
  2. ejecutar la regresión OLS y ~ x2, tenemos otro , digamos 0.4R2
  3. ahora ejecutamos una regresión y ~ x1 + x2, ¿qué valor puede ser la R al cuadrado de esta regresión?

Creo que está claro que para la regresión múltiple no debe ser inferior a 0.4, pero ¿es posible que sea superior a 0.7?R2

Olivier Ma
fuente
2
Sugerencia: podría ser tan alto como 1.0. ¿Por qué? (Piense geométricamente. O, incluso específicamente, sobre el círculo unitario.)
cardenal

Respuestas:

4

El segundo regresor puede simplemente compensar lo que el primero no logró explicar en la variable dependiente. Aquí hay un ejemplo numérico:

Genere x1como un regresor normal estándar, tamaño de muestra 20. Sin pérdida de generalidad, tome , donde es , también. Ahora, tome el segundo regresor como simplemente la diferencia entre la variable dependiente y el primer regresor.u i N ( 0 , 1 )yi=0.5x1i+uiuiN(0,1)x2

n <- 20 
x1 <- rnorm(n)

y <- .5*x1 + rnorm(n)

x2 <- y - x1
summary(lm(y~x1))$r.squared
summary(lm(y~x2))$r.squared
summary(lm(y~x1+x2))$r.squared
Christoph Hanck
fuente
¡Gracias! Tenía una comprensión errónea de r al cuadrado. Pensé que si x1 + x2 = ya continuación, summary(lm(y~x1))$r.squared + summary(lm(y~x2))$r.squareddebe no menos de 1. estar pero está claro que estoy equivocado ..
Olivier Ma
3

Aparte del límite inferior, que es 0.3 o 0.4 dependiendo de qué variable ingrese primero al modelo, no hay mucho que pueda decir. El aumento de depende en gran medida de la información que la segunda variable aporta al modelo. Por información, nos referimos, por supuesto, a la variación explicada en la respuesta.R2

Hay un concepto que es crítico en ese sentido y es la correlación entre los predictores. Si la correlación es grande, la nueva variable no solo no aportará nada al modelo, sino que también complicará la inferencia para sus variables existentes, ya que las estimaciones se volverán imprecisas (multicolinealidad). Esta es la razón por la que idealmente preferiríamos que la nueva variable sea ortogonal a las otras. Hay pocas posibilidades de que esto suceda en los estudios de observación, pero se puede lograr en entornos controlados, por ejemplo, cuando está construyendo su propio experimento.

Pero, ¿cómo cuantifica con precisión la nueva información que una variable aportará al modelo? Una medida ampliamente utilizada que tiene en cuenta todo esto es el parcial R2 . Si está familiarizado con el ANOVA del modelo lineal, esto no es más que la disminución proporcional en la suma de cuadrados de error que logrará al incluir esta variable en su modelo. Los porcentajes altos son deseables, mientras que los bajos probablemente te harán pensar si este es el curso de acción correcto.

Entonces, como señaló @cardinal en los comentarios, su nuevo coeficiente de determinación podría ser tan alto como 1. También podría ser tan bajo como 0.400001. No hay forma de saberlo sin información adicional.

JohnK
fuente
@JohnK, ¿le importaría explicar más por qué tiene que ser ESTRICTAMENTE mayor que 0.4? ¿Ayudaría aquí la interpretación geométrica de la regresión?
Dnaiel
@Dnaiel El coeficiente de determinación no disminuye con respecto al número de variables en el modelo.
JohnK
3

Coeficiente de determinación en regresión lineal múltiple: en la regresión lineal múltiple, el coeficiente de determinación puede escribirse en términos de las correlaciones por pares para las variables usando la forma cuadrática:

R2=ry,xTrx,x1ry,x,

donde es el vector de correlaciones entre el vector de respuesta y cada uno de los vectores explicativos, y es la matriz de correlaciones entre los vectores explicativos (para más información, consulte esta pregunta relacionada ). En el caso de una regresión bivariada tienes:ry,xrx,x

R2=[rY,X1rY,X2]T[1rX1,X2rX1,X21]1[rY,X1rY,X2]=11rX1,X22[rY,X1rY,X2]T[1rX1,X2rX1,X21][rY,X1rY,X2]=11rX1,X22(rY,X12+rY,X222rX1,X2rY,X1rY,X2).

No especificó las direcciones de las correlaciones univariadas en su pregunta, por lo que sin pérdida de generalidad, denotaremos . Sustituyendo sus valores y produce:Dsgn(rY,X1)sgn(rY,X2){1,+1}rY,X12=0.3rY,X22=0.4

R2=0.720.12DrX1,X21rX1,X22.

Es posible que , ya que es posible que la información combinada de las dos variables sea más que la suma de sus partes. Este fenómeno interesante se llama "mejora" (véase, por ejemplo, Lewis y Escobar 1986 ).R2>0.7

Ben - Restablece a Monica
fuente