Gráficos residuales: ¿por qué el gráfico versus los valores ajustados, los valores

20

En el contexto de la regresión OLS, entiendo que una gráfica residual (vs valores ajustados) se ve convencionalmente para probar la varianza constante y evaluar la especificación del modelo. ¿Por qué se trazan los residuos contra los ajustes, y no los valores ? ¿Cómo es la información diferente de estas dos parcelas?Y

Estoy trabajando en un modelo que produjo las siguientes parcelas residuales:

ingrese la descripción de la imagen aquí

ingrese la descripción de la imagen aquí

Por lo tanto, el gráfico frente a los valores ajustados se ve bien a simple vista, pero el segundo gráfico contra el valor tiene un patrón. Me pregunto por qué un patrón tan pronunciado no se manifestaría también en la trama residual vs ajuste ...Y

No estoy buscando ayuda para diagnosticar problemas con el modelo, sino solo tratando de entender las diferencias (generalmente) entre (1) gráfico residual versus ajuste y (2) gráfico residual versusY

Por lo que vale, estoy seguro de que el patrón de error en el segundo gráfico se debe a las variables omitidas que influyen en el DV. Actualmente estoy trabajando para obtener esos datos, que espero ayuden al ajuste general y a las especificaciones. Estoy trabajando con datos inmobiliarios: DV = Precio de venta. IVs: Pies cuadrados de casa, # espacios de garaje, año de construcción, año de construcción . 2

Mac
fuente
3
Me he tomado la libertad de modificar el título para que coincida un poco más con tu intención. Incluso entre los economistas (puede ser uno) "IV" tiene otro significado de variable instrumental, aunque no hay ambigüedad en este caso. Para una mejor comunicación entre varias ciencias estadísticas, algunos de nosotros desalentamos las abreviaturas usadas localmente como DV (que para algunas personas todavía significa Deo volente ) y IV a favor de términos evocadores como respuesta o resultado, por un lado, y predictor o covariable por el otro. Sé que este es un detalle en su pregunta, pero ha sido bien respondido.
Nick Cox

Respuestas:

11

Por construcción, el término de error en un modelo OLS no está correlacionado con los valores observados de las covariables X. Esto siempre será cierto para los datos observados, incluso si el modelo produce estimaciones sesgadas que no reflejan los valores verdaderos de un parámetro porque se infringe una suposición del modelo (como un problema variable omitido o un problema con causalidad inversa). Los valores pronosticados son completamente una función de estas covariables, por lo que tampoco están correlacionados con el término de error. Por lo tanto, cuando traza los residuos frente a los valores pronosticados, siempre deben parecer aleatorios porque, de hecho, no están correlacionados por la construcción del estimador. Por el contrario, es completamente posible (y de hecho probable) que el término de error de un modelo esté correlacionado con Y en la práctica. Por ejemplo, con una variable X dicotómica, más lejos está la verdadera Y deE(Y | X = 1)o E(Y | X = 0)entonces cuanto mayor sea el residual será. Aquí está la misma intuición con datos simulados en R donde sabemos que el modelo es imparcial porque controlamos el proceso de generación de datos:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Obtenemos el mismo resultado de correlación cero con un modelo sesgado, por ejemplo, si omitimos x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero
Miguel
fuente
2
Útil, pero la primera oración podría reescribirse para mayor claridad. "Construcción" produce los residuos; Se considera que el término de error existe y existe antes del cálculo. Del mismo modo, diría que son las estimaciones las que se construyen, no el estimador, que es el método utilizado para construirlas.
Nick Cox
Pero entonces, ¿por qué nos fijamos en el gráfico residual (vs ajustes)? ¿Qué propósito diagnóstico tiene esa trama? Soy nuevo en el sitio. ¿Tengo que etiquetar a Michael o recibe este comentario automáticamente? Mi comentario también se aplicaría a la respuesta de @Glen_b a continuación. Ambas respuestas ayudan a mi comprensión. Gracias.
Mac
... porque pueden revelar otra estructura. La falta de correlación entre residual y ajuste no significa que otras cosas no puedan estar sucediendo también. Si cree que su modelo es perfecto, entonces no creerá que eso sea posible ... En la práctica, debe verificar otros tipos de estructura.
Nick Cox
@ Mac, seré sincero y diré que nunca miro estas tramas. Si está tratando de hacer una inferencia causal, entonces debería pensar en problemas variables omitidos y revertir los problemas de causalidad conceptualmente. Cualquiera de los dos problemas podría ocurrir y usted no podría mirarlo desde estas parcelas, ya que son problemas de equivalencia observacional. Si lo único que le importa es la predicción, entonces debe pensar detenidamente y probar fuera de la muestra qué tan bien funcionan las predicciones de su modelo fuera de la muestra (de lo contrario, no es una predicción).
Michael
@ NickCox Sí, me refiero al término de error según lo estimado por el modelo y no al valor verdadero del parámetro.
Michael
20

Dos hechos que supongo que estás contento conmigo solo declarando:

yyo=y^yo+mi^yo

Cov(y^yo,mi^yo)=0 0

Luego:

Cov(yyo,mi^yo)=Cov(y^yo+mi^yo,mi^yo)

=Cov(y^yo,mi^yo)+Cov(mi^yo,mi^yo)

=0 0+σmi2

=σmi2

Entonces, aunque el valor ajustado no está correlacionado con el residual, la observación sí lo está .

En efecto, esto se debe a que tanto la observación como el residuo están relacionados con el término de error.

Esto generalmente hace que sea un poco más difícil utilizar la gráfica residual con fines de diagnóstico.

Glen_b -Reinstate a Monica
fuente