En el contexto de la regresión OLS, entiendo que una gráfica residual (vs valores ajustados) se ve convencionalmente para probar la varianza constante y evaluar la especificación del modelo. ¿Por qué se trazan los residuos contra los ajustes, y no los valores ? ¿Cómo es la información diferente de estas dos parcelas?
Estoy trabajando en un modelo que produjo las siguientes parcelas residuales:
Por lo tanto, el gráfico frente a los valores ajustados se ve bien a simple vista, pero el segundo gráfico contra el valor tiene un patrón. Me pregunto por qué un patrón tan pronunciado no se manifestaría también en la trama residual vs ajuste ...
No estoy buscando ayuda para diagnosticar problemas con el modelo, sino solo tratando de entender las diferencias (generalmente) entre (1) gráfico residual versus ajuste y (2) gráfico residual versus
Por lo que vale, estoy seguro de que el patrón de error en el segundo gráfico se debe a las variables omitidas que influyen en el DV. Actualmente estoy trabajando para obtener esos datos, que espero ayuden al ajuste general y a las especificaciones. Estoy trabajando con datos inmobiliarios: DV = Precio de venta. IVs: Pies cuadrados de casa, # espacios de garaje, año de construcción, año de construcción .
Respuestas:
Por construcción, el término de error en un modelo OLS no está correlacionado con los valores observados de las covariables X. Esto siempre será cierto para los datos observados, incluso si el modelo produce estimaciones sesgadas que no reflejan los valores verdaderos de un parámetro porque se infringe una suposición del modelo (como un problema variable omitido o un problema con causalidad inversa). Los valores pronosticados son completamente una función de estas covariables, por lo que tampoco están correlacionados con el término de error. Por lo tanto, cuando traza los residuos frente a los valores pronosticados, siempre deben parecer aleatorios porque, de hecho, no están correlacionados por la construcción del estimador. Por el contrario, es completamente posible (y de hecho probable) que el término de error de un modelo esté correlacionado con Y en la práctica. Por ejemplo, con una variable X dicotómica, más lejos está la verdadera Y de
E(Y | X = 1)
oE(Y | X = 0)
entonces cuanto mayor sea el residual será. Aquí está la misma intuición con datos simulados en R donde sabemos que el modelo es imparcial porque controlamos el proceso de generación de datos:Obtenemos el mismo resultado de correlación cero con un modelo sesgado, por ejemplo, si omitimos
x1.
fuente
Dos hechos que supongo que estás contento conmigo solo declarando:
Luego:
Entonces, aunque el valor ajustado no está correlacionado con el residual, la observación sí lo está .
En efecto, esto se debe a que tanto la observación como el residuo están relacionados con el término de error.
Esto generalmente hace que sea un poco más difícil utilizar la gráfica residual con fines de diagnóstico.
fuente