En la regresión lineal múltiple, ¿por qué una gráfica de puntos predichos no se encuentra en una línea recta?

Estoy usando regresión lineal múltiple para describir las relaciones entre Y y X1, X2.

Desde la teoría, entendí que la regresión múltiple supone relaciones lineales entre Y y cada una de X (Y y X1, Y y X2). No estoy usando ninguna transformación de X.

Entonces, obtuve el modelo con R = 0.45 y todo X significativo (P <0.05). Luego tracé Y contra X1. No entiendo por qué los círculos de color rojo que son predicciones del modelo no forman una línea. Como dije antes, esperaba que cada par de Y y X esté ajustado por una línea.

La trama se genera en python de esta manera:

fig, ax = plt.subplots()
plt.plot(x['var1'], ypred, 'o', validation['var1'], validation['y'], 'ro');
ax.set_title('blue: true,   red: OLS')
ax.set_xlabel('X')
ax.set_ylabel('Y')
plt.show()

regression multiple-regression python linear Klausos
fuente

¿Puedes publicar el código que usaste para la trama / análisis? Las líneas rojas y azules parecen nerviosismo el uno del otro. Por lo tanto, el código detrás de este diagrama podría ayudar a resolver mejor su problema.

Dawny33

Solo esperaría una línea si (i) se supone que el valor del otro predictor

es el mismo para cada punto predicho (y si intenta asumir valores diferentes de

entonces obtiene una línea diferente), o ( ii) si usa predicciones para sus datos reales, pero "salida parcial" (es decir, compensa) las variaciones en

, que es para lo que es un gráfico de regresión parcial o un gráfico de variables agregadas . Sin saber exactamente cómo ha construido este argumento, no es posible saber cuál es su problema, como dice @ dawny33

x_{2}

$x_2$

x_{2}

$x_2$

x_{2}

$x_2$

Silverfish

Creo que el comentario de @Silverfish es correcto; en tres dimensiones

representa un plano

. Si reduce a dos dimensiones, entonces 'proyecta' el plano en tres dimensiones (

) en el plano p

Ej.

, esta será una línea solo si

es ortogonal al plano

y = β_{0} + β_{1} x_{1} + β_{2} x_{2}

$y=\beta_0+\beta_1 x_1 + \beta_2 x_2$

P

$\mathcal{P}$

P

$\mathcal{P}$

(y, x_{1})

$(y,x_1)$

P

$\mathcal{P}$

(y, x_{1})

$(y,x_1)$

@ Dawny33: publicado.

Klausos

@f coppens: Gracias. Entonces, ¿por qué la literatura dice que un modelo de regresión lineal múltiple asume relaciones lineales entre Y y cada uno de X (Y y X1, Y y X2)?

Klausos

Suponga que su ecuación de regresión múltiple fue

\hat{y} = 2 x_{1} + 5 x_{2} + 3

$\hat y = 2 x_1 + 5 x_2 + 3$

donde significa "predicho ". $\hat y$ $y$

Ahora tome solo aquellos puntos para los cuales . Entonces, si se trazan contra , estos puntos va a satisfacer la ecuación: $x_2 = 1$ $\hat y$ $x_1$

\hat{y} = 2 x_{1} + 5 (1) + 3 = 2 x_{1} + 8

$\hat y = 2 x_1 + 5(1) + 3 = 2 x_1 + 8$

Por lo tanto, deben recostarse en una línea de pendiente 2 y con la intersección 8. $y$

Ahora tome esos puntos para los cuales . Al trazar contra , entonces estos puntos satisfacen: $x_2 = 2$ $\hat y$ $x_1$

\hat{y} = 2 x_{1} + 5 (2) + 3 = 2 x_{1} + 13

$\hat y = 2 x_1 + 5(2) + 3 = 2 x_1 + 13$

Entonces, esa es una línea de pendiente 2 y con la intersección 13. Puedes verificar por ti mismo que si obtienes otra línea de pendiente 2 intersección es 18. $y$ $x_2=3$ $y$

Vemos que los puntos con diferentes valores de se ubicarán en diferentes líneas, pero todos con el mismo gradiente: el significado del coeficiente de en la ecuación de regresión original es que, ceteris paribus, es decir, mantener otros predictores constantes, uno unidad de aumento en aumenta la respuesta media predicha por dos unidades, mientras que el significado de la intersección de en la ecuación de regresión fue que cuando y entonces la respuesta media predicha es $x_2$ $2x_1$ $x_1$ $\hat y$ $3$ $x_1 = 0$ $x_2 = 0$ $3$ . Pero no todos sus puntos tienen el mismo , lo que significa que se encuentran en líneas con una intersección diferente: la línea solo tendría la intersección para aquellos puntos para los cuales . Entonces, en lugar de ver una sola línea, puede ver (si solo hay ciertos valores de que ocurren, por ejemplo, si es siempre entero) una serie de "rayas" diagonales. Tenga en cuenta los siguientes datos, en donde . $x_2$ $3$ $x_2=0$ $x_2$ $x_2$ $\hat y = 2 x_1 + 5 x_2 + 3$

Aquí hay "rayas" perceptibles. Ahora, si coloreo aquellos puntos para los cuales como círculos rojos, como triángulos dorados y como cuadrados azules, vemos que se encuentran en tres líneas distintas, todas de pendiente 2, e interceptos en 8, 13 y 18 como se calculó anteriormente. Por supuesto, si no estuviera limitado a tomar valores enteros, o la situación se complicara por otras variables predictoras que se incluyen en la regresión, entonces el rayado diagonal sería menos claro, pero aún sería el caso de que cada punto predicho se encuentra en una línea separada $x_2=1$ $x_2=2$ $x_2=3$ $y$ $x_2$ basado en los valores de los otros predictores que no se muestran en el gráfico .

$y$ $x_1$ $x_2$ $\hat y = 2 x_1 + 5 x_2 + 3$ $y$ $x_1$ $x_2$ $y$ $x_1$ -axis apunta a su derecha.

$y$ $y$

$\hat y$ $x_1$ $x_2$ $x_2$ $\hat y$ $x_1$ $x_2$ $y$ $x_1$ $x_2$ $y$ $x_1$

Código para parcelas R

library(scatterplot3d)

data.df <- data.frame(
  x1 = c(0,2,4,5,8, 1,3,4,7,8, 0,3,5,6,7),
  x2 = c(1,1,1,1,1, 2,2,2,2,2, 3,3,3,3,3)
)

data.df$yhat <- with(data.df, 2*x1 + 5*x2 + 3)

data1.df <- data.df[data.df$x2==1,]
data2.df <- data.df[data.df$x2==2,]
data3.df <- data.df[data.df$x2==3,]

#Before lines added    
mar.default <- c(5,4,4,2) + 0.1
par(mar = mar.default + c(0, 1, 0, 0)) 
plot(data.df[c("x1","yhat")], main=expression("Predicted y against "*x[1]),
     xlab=expression(x[1]), ylab=expression(hat(y)))

#After lines added
plot(data.df[c("x1","yhat")], main=expression("Predicted y against "*x[1]),
     xlab=expression(x[1]), ylab=expression(hat(y)), pch=".")
points(data1.df[c("x1","yhat")], pch=19, col="red")
abline(lm(yhat ~ x1, data=data1.df), col="red")
points(data2.df[c("x1","yhat")], pch=17, col="gold")
abline(lm(yhat ~ x1, data=data2.df), col="gold")
points(data3.df[c("x1","yhat")], pch=15, col="blue")
abline(lm(yhat ~ x1, data=data3.df), col="blue")

#3d plot
myPlot <- scatterplot3d(data.df, pch=".", xlab=expression(x[1]),
                        ylab=expression(x[2]), zlab=expression(hat(y)),
                        main=expression("Predicted y against "*x[1]*" and "*x[2]))
myPlot$plane3d(Intercept=3, x.coef=2, y.coef=5, col="darkgrey")
myPlot$points3d(data1.df, pch=19, col="red")
myPlot$points3d(data2.df, pch=17, col="gold")
myPlot$points3d(data3.df, pch=15, col="blue")
print(myPlot)

Lepisma
fuente

Solo una pequeña pregunta: al decir plano, ¿te refieres también a un plano que puede tener cierta curvatura?

Klausos

Significa un plano "plano". Agregaré una imagen para ilustrar más tarde.

Silverfish

Estoy protagonizando esta pregunta solo para poder volver a estas grandes tramas

shadowtalker

En la regresión lineal múltiple, ¿por qué una gráfica de puntos predichos no se encuentra en una línea recta?

Respuestas: