Me gustaría saber si tiene sentido estudiar las gráficas de residuos con respecto a la variable dependiente cuando tengo una regresión univariada. Si tiene sentido, ¿qué significa una correlación fuerte, lineal y creciente entre los residuos (en el eje y) y los valores estimados de la variable dependiente (en el eje x)?
regression
residuals
Luigi
fuente
fuente
Respuestas:
Si quieres una pequeña demostración de R, aquí tienes:
fuente
Suponiendo que el modelo estimado está especificado correctamente ...
Por lo tanto, el diagrama de dispersión de los residuos frente a la variable dependiente predicha no debe mostrar correlación.
¡Pero!
Hasta donde yo sé, Gretl produce por defecto el gráfico de residuos contra la variable dependiente original (¡no la predicha!).
fuente
¿Es posible que esté confundiendo los valores ajustados / predichos con los valores reales?
Como han dicho @gung y @biostat, espera que no haya relación entre los valores ajustados y los residuos. Por otro lado, encontrar una relación lineal entre los valores reales de la variable dependiente / resultado y los residuos es de esperar y no es particularmente informativo.
Se agregó para aclarar la oración anterior: no es de esperar cualquier relación lineal entre los residuos y los valores reales del resultado ... Para valores bajos medidos de Y, los valores pronosticados de Y de un modelo útil tenderán a ser más altos que los valores medidos reales, y viceversa.
fuente
Las respuestas ofrecidas me dan algunas ideas sobre lo que está sucediendo aquí. Creo que puede haber habido algunos errores cometidos por accidente. Vea si la siguiente historia tiene sentido: Para comenzar, creo que probablemente haya una fuerte relación entre X e Y en los datos (aquí hay un código y un diagrama):
Pero por error Y se predijo solo a partir de la media. Para agravar esto, los residuos del modelo de solo media se trazan contra X, aunque lo que se pretendía era trazar contra los valores ajustados (código y trama):
Podemos arreglar esto ajustando el modelo apropiado y trazando los residuos de eso (código y trama):
Esto parece solo el tipo de tonterías que hice cuando comencé.
fuente
Este gráfico indica que el modelo que instaló no es bueno. Como @gung dijo en los primeros comentarios sobre la pregunta principal, que no debería haber una relación entre la respuesta predicada y la residual.
"un analista debe esperar que un modelo de regresión erre al predecir una respuesta de manera aleatoria; el modelo debe predecir valores más altos que los reales y más bajos que los reales con la misma probabilidad. Ver esto "
Recomendaría la primera respuesta del gráfico frente a la variable independiente para ver la relación entre ellos. Puede ser razonable agregar términos polinómicos en el modelo.
fuente
¿No es esto lo que sucede si no hay una relación entre la variable X e Y? Al mirar este gráfico, parece que esencialmente estás prediciendo Y con su media.
fuente
Creo que OP trazó los residuos frente a la variable de respuesta original (no la variable de respuesta ajustada del modelo). Veo tramas como esta todo el tiempo, con casi el mismo patrón exacto. Asegúrese de trazar los residuos frente a los valores ajustados, ya que no estoy seguro de qué inferencia significativa podría obtener de los residuos frente a la Y original. Pero ciertamente podría estar equivocado.
fuente