¿Es posible que de una regresión en dos variables sea mayor que la suma de para dos regresiones en las variables individuales?

8

En OLS, ¿es posible que el de una regresión en dos variables sea mayor que la suma de para dos regresiones en las variables individuales?R2R2

R2(YA+B)>R2(YA)+R2(YB)

Editar: Ugh, esto es trivial; eso es lo que obtengo por tratar problemas que pensé mientras estaba en el gimnasio. Perdón por perder el tiempo otra vez. La respuesta es claramente sí.

YN(0,1)

AN(0,1)

B=YA

R2(YA+B)=1 , claramente. Pero debería ser 0 en el límite y debería ser 0.5 en el límite. R2(YA)R2(YB)

bsdfish
fuente
¿Está preguntando acerca de la desigualdad en la ecuación de visualización (que involucra la suma residual de cuadrados ) o está preguntando acerca de una desigualdad que involucra la oración que precede a esa ecuación, es decir, que involucra , el coeficiente de determinación? R2
Cardenal
Estaba interesado en ; editado para solucionar el problema. R2
bsdfish
Buena . También hay buenas explicaciones geométricas de.
Cardenal
3
Puede editar su respuesta y ponerla como una respuesta real, para que la pregunta no quede "sin respuesta".
Karl
¿Hay alguna posibilidad de que podamos obtener una respuesta intuitiva para esto? si es el porcentaje de varianza explicada, entonces ¿cómo se puede explicar más de la varianza con el modelo completo que con un modelo dedicado para cada variable? R2
kmace

Respuestas:

4

Aquí hay un poco de R que establece una semilla aleatoria que dará como resultado un conjunto de datos que lo muestra en acción.

set.seed(103)

d <- data.frame(y=rnorm(20, 0, 1),
                a=rnorm(20, 0, 1),
                b=rnorm(20, 0, 1))

m1 <- lm(y~a, data=d)
m2 <- lm(y~b, data=d)
m3 <- lm(y~a+b, data=d)

r2.a <- summary(m1)[["r.squared"]]
r2.b <- summary(m2)[["r.squared"]]
r2.sum <- summary(m3)[["r.squared"]]

r2.sum > r2.a + r2.b

No solo es posible (como ya ha demostrado analíticamente) no es difícil de hacer. Dadas 3 variables normalmente distribuidas, parece suceder aproximadamente el 40% del tiempo.

Benjamin Mako Hill
fuente
Guau. Ustedes chicos del MIT deben tener más tiempo del que comúnmente se supone ;-)
xmjx
Estaba atrapado en un largo día de reuniones. :)
Benjamin Mako Hill
-1

No es posible Además, si A y B están correlacionados (si su r no es cero), el rsq de la regresión en ambos será menor que la suma de los rsq de sus regresiones individuales.

Tenga en cuenta que incluso si A y B no están completamente correlacionados, los rsq ajustados (que penalizan por una baja relación caso-predictor) pueden ser ligeramente diferentes entre las dos soluciones.

Tal vez le gustaría compartir más sobre la evidencia empírica que lo atrapó.

rolando2
fuente
Es posible que desee repensar esto. O intente una simulación. :)
cardenal
Tenga en cuenta que es exactamente cuando y están altamente correlacionados que uno hace ver la desigualdad se indica en la pregunta. :)AB
Cardenal
Considere el siguiente escenario extremo, en el que voy a utilizar la más convencional y en lugar de y . Tome una distribución normal bivariada (latente). Sea la proyección de la bivariada normal en el vector propio con el valor propio más grande. Deje que sea ​​la proyección en el vector propio del valor propio más pequeño. Para cualquier , y mucho . Entonces, para es cero y para puede hacerse arbitrariamente pequeño. Pero, el deX1X2ABYX10<ρ<1X2=ρY+1ρ2XR2X1R2X2R2X1+X2es siempre 1 (¿por qué?) Tal vez, podrías considerar editar tu publicación.
Cardenal
... y por me refiero al modelo que incorpora ambos predictores, no su suma real. Una notación mejor probablemente sería a través de la suma directa . X1+X2X1X2
Cardenal