Tengo un modelo de dataset de Películas y usé la regresión:
model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)
Lo que dio la salida:
Ahora intenté trabajar por primera vez algo llamado Ploteo Variable Agregado y obtuve el siguiente resultado:
car::avPlots(model, id.n=2, id.cex=0.7)
El problema es que traté de comprender el Gráfico de Variable Agregada usando google, pero no pude entender su profundidad, al ver el gráfico entendí que es un tipo de representación de sesgo basado en cada una de las variables de entrada relacionadas con la salida.
¿Puedo obtener más detalles como cómo justifica la normalización de datos?
regression
data-visualization
multiple-regression
scatterplot
Abhishek Choudhary
fuente
fuente
avPlots
?Respuestas:
Para ilustración, tomaré un modelo de regresión menos complejoY=β1+β2X2+β3X3+ϵ donde las variables predictoras X2 y X3 pueden estar correlacionadas. Digamos que las pendientes β2 y β3 son positivas, por lo que podemos decir que (i) Y aumenta a medida que X2 aumenta, si X3 se mantiene constante, ya que β2 es positivo; (ii) Y aumenta a medida que X3 aumenta, si X2 se mantiene constante, ya que β3 es positivo.
Tenga en cuenta que es importante interpretar los coeficientes de regresión múltiple considerando lo que sucede cuando las otras variables se mantienen constantes ("ceteris paribus"). Supongamos que acabo de retrocederY contra X2 con un modelo Y=β′1+β′2X2+ϵ′ . Mi estimación para el coeficiente de pendiente β′2 , que mide el efecto sobre Y de un aumento de una unidad en X2 sin mantener X3 constante, puede ser diferente de mi estimación de β2 de la regresión múltiple - que también mide el efecto en Y de un aumento de una unidad en X2 , pero hace retención X3 constante. El problema con mi estimación β′2^ es que sufre un sesgo de variable omitida si X2 y X3 están correlacionados.
Para entender por qué, imagine queX2 y X3 están correlacionados negativamente. Ahora, cuando aumento X2 en una unidad, sé que el valor medio de Y debería aumentar ya que β2>0 . Pero como X2 aumenta, si no mantenemos X 3 constante, entonces X 3 tiende a disminuir, y desde β 3 > 0 Esto tenderá a reducir el valor medio de Y . Entonces, el efecto general de un aumento de una unidad en X 2 aparecerá más bajo si permito X también varía, de ahí β ′ 2 < β 2 . Las cosas empeoran cuanto más se correlacionan X 2 y X 3 , y cuanto mayor sea el efecto deX3 X3 β3>0 Y X2 X3 X 3 a β 3 , en un caso realmente severo, incluso podemos encontrar β ′ 2 < 0 aunque sabemos que, ceteris paribus, X 2 tiene una influencia positiva en Y !β′2<β2 X2 X3 X3 β3 β′2<0 X2 Y
Esperemos que ahora pueda ver por qué dibujar un gráfico deY contra X2 sería una mala manera de visualizar la relación entre Y y X2 en su modelo. En mi ejemplo, su ojo se dibujaría en una línea de mejor ajuste con pendiente β′2^ que no refleje el β2^ de su modelo de regresión. En el peor de los casos, su modelo puede predecir que Y aumenta a medida que X2 aumenta (con otras variables mantenidas constantes) y, sin embargo, los puntos en el gráfico sugieren que Y disminuye a medida que X2 aumenta.
El problema es que en el gráfico simple deY contra X2 , las otras variables no se mantienen constantes. Esta es la idea crucial del beneficio de una gráfica de variable adicional (también llamada gráfica de regresión parcial): utiliza el teorema de Frisch-Waugh-Lovell para "parcializar" el efecto de otros predictores. Los ejes horizontales y verticales en la gráfica quizás se entiendan más fácilmente * como " X2 después de que se tienen en cuenta otros predictores" e " Y después de que se tienen en cuenta otros predictores". Ahora puede ver la relación entre Y y X2 una vez que se han tenido en cuenta todos los demás predictores. Entonces, por ejemplo, la pendiente que puede ver en cada gráfica ahora refleja los coeficientes de regresión parcial de su modelo original de regresión múltiple.
Gran parte del valor de una gráfica de variable agregada llega en la etapa de diagnóstico de regresión, especialmente porque los residuos en la gráfica de variable agregada son precisamente los residuales de la regresión múltiple original. Esto significa que los valores atípicos y la heterocedasticidad pueden identificarse de manera similar a cuando se observa la trama de un modelo de regresión simple en lugar de múltiple. También se pueden ver los puntos influyentes; esto es útil en la regresión múltiple ya que algunos puntos influyentes no son obvios en los datos originales antes de tener en cuenta las otras variables. En mi ejemplo, un valorX2 moderadamente grande puede no verse fuera de lugar en la tabla de datos, pero si el valor X3 es grande a pesar de X2 y X3 se correlacionan negativamente, entonces la combinación es rara. "Contabilización de otros predictores", esevalorX2 es inusualmente grande y se destacará de manera más destacada en su gráfico variable agregado.
fuente
Claro, sus pendientes son los coeficientes de regresión del modelo original (coeficientes de regresión parcial, todos los demás predictores se mantienen constantes)
fuente