¿Tiene sentido estudiar gráficas de residuos con respecto a la variable dependiente?

11

Me gustaría saber si tiene sentido estudiar las gráficas de residuos con respecto a la variable dependiente cuando tengo una regresión univariada. Si tiene sentido, ¿qué significa una correlación fuerte, lineal y creciente entre los residuos (en el eje y) y los valores estimados de la variable dependiente (en el eje x)?

ingrese la descripción de la imagen aquí

Luigi
fuente
3
No estoy seguro de qué quiere decir con "correlación fuerte, lineal y creciente". ¿Puedes mostrar la trama? Es perfectamente razonable trazar los residuos contra los valores ajustados. En general, desea que no haya ninguna relación: una línea horizontal plana que atraviese el centro. Además, desea que la dispersión vertical de los residuos sea constante desde el lado izquierdo de su gráfico hacia la derecha.
gung - Restablece a Monica
Hola. Gracias por su respuesta. Esta es la trama: img100.imageshack.us/img100/7414/bwages.png
Luigi
Eso es desconcertante. Permítanme asegurarme de que entiendo: ejecutaron un modelo de regresión, luego trazaron los residuos frente a los valores ajustados, y eso es lo que obtuvieron, ¿no es así? No debería verse así. ¿Puedes editar tu pregunta y pegar el código que usaste para el modelo y la trama?
gung - Restablecer Monica
Entendiste bien. Lo siento, pero no sé cómo recuperar el código, ejecuté la regresión y tracé los residuos con el programa Gretl.
Luigi
2
Inicialmente no vi el comentario de @ mark999 cuando escribí mi respuesta a continuación. Creo que su sospecha es correcta, que se trata de residuos frente a los valores y. Luigi, vuelve a hacer tu gráfico; no intentes interpretarlo cuando puedas estar equivocado acerca de cuáles son las variables.
Michael Bishop

Respuestas:

12

yi=β0+β1xi+ϵiβ10yiβ0ϵiyxy^iβ^0--- lo mismo para cada observación. Si todos los valores pronosticados son aproximadamente iguales, no deberían estar correlacionados con los errores.

xyβ^1

x

Si quieres una pequeña demostración de R, aquí tienes:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)
Charlie
fuente
β1=0
5

Suponiendo que el modelo estimado está especificado correctamente ...

PX=X(XX)1XPXPX2=PXPX=PX

Cov(Y^,e^)=Cov(PXY,(IPX)Y)=PXCov(Y,Y)(IPX)=σ2PX(IPX)=0

Por lo tanto, el diagrama de dispersión de los residuos frente a la variable dependiente predicha no debe mostrar correlación.

¡Pero!

Cov(Y,e^)=Cov(Y,(IPX)Y)=Cov(Y,Y)(IPX)=σ2(IPX)

σ2(IPX)

Hasta donde yo sé, Gretl produce por defecto el gráfico de residuos contra la variable dependiente original (¡no la predicha!).

Roah
fuente
Agradezco la posibilidad diferente. Aquí es donde algún conocimiento de Gretl es útil. Sin embargo, me pregunto cuán plausible es que esta sea la verdadera respuesta. Usando mis datos simulados, correlacioné y grafiqué los residuos versus el dv original; r = .22 y la gráfica se parece mucho a mi tercera gráfica, no a la gráfica de preguntas. Por supuesto, elaboré esos datos para verificar la plausibilidad de mi historia; puede que no sean apropiados para verificar la suya.
gung - Restablece a Monica
@gung, ¿qué quieres decir con que usaste tus datos simulados?
Michael Bishop
@MichaelBishop si miras mi respuesta, verás que simulé datos para probar mi historia y ver si se vería como la trama publicada. Mi código y tramas se presentan. Desde que se especifica la semilla, que es reproducible por cualquier persona con acceso a R.
Gung - Restablecer Mónica
4

¿Es posible que esté confundiendo los valores ajustados / predichos con los valores reales?

Como han dicho @gung y @biostat, espera que no haya relación entre los valores ajustados y los residuos. Por otro lado, encontrar una relación lineal entre los valores reales de la variable dependiente / resultado y los residuos es de esperar y no es particularmente informativo.

Se agregó para aclarar la oración anterior: no es de esperar cualquier relación lineal entre los residuos y los valores reales del resultado ... Para valores bajos medidos de Y, los valores pronosticados de Y de un modelo útil tenderán a ser más altos que los valores medidos reales, y viceversa.

Michael Bishop
fuente
La implicación de lo que está diciendo es que, si los valores se predicen de manera constante a valores bajos de Y y se predicen de manera constante a valores altos de Y, está bien. Eso es un problema, ¿verdad?
rolando2
@ rolando2, no he dado a entender lo que dices que he dado a entender, aunque quizás debería aclarar mi respuesta. Como dijiste, predecir constantemente en valores bajos de Y y predecir demasiado en valores altos de Y sería un signo de un modelo muy malo. Me imaginé lo opuesto: predecir en exceso los valores bajos de Y y predecir los valores altos de Y. Este fenómeno es común y es de esperar aproximadamente en proporción a la cantidad de la varianza en la variable dependiente que puede explicar. Imagine que carece de variables que pronostiquen S, por lo que siempre usa la media como su predicción
Michael Bishop
1
lo que has dicho tiene sentido para mí, excepto por una cosa. Tengo problemas para imaginar que una tendencia tan fuerte como la que Luigi ha mostrado alguna vez aparecería en una solución sólida o deseable, incluso si la tendencia fuera de la parte superior izquierda a la inferior derecha.
rolando2
1
@ rolando2, los residuos se definen típicamente como observados - ajustados, por lo tanto, los residuos negativos son predicciones excesivas. En un modelo debidamente especificado con poco poder explicativo, soy un científico social, así que veo esto todo el tiempo, habrá una fuerte relación positiva entre los residuos y los valores de resultado observados. Si se trata de un gráfico residual versus real, entonces una tendencia desde la parte superior izquierda a la inferior derecha, sería la señal de un modelo mal especificado que inicialmente le preocupaba.
Michael Bishop
Ok, mi culpa Como escribieron Michael Bishop y Roah, Gretl traza los residuos con respecto a la y observada , no a la predicha. Lamento mucho todo este desastre, realmente no esperaba todas estas respuestas. Soy un principiante y cometí este error, así que espero que me puedan "perdonar". De todos modos, creo que esto debería indicarme que debería haber usado más variables explicativas. ¡Gracias a todos!
Luigi
3

Las respuestas ofrecidas me dan algunas ideas sobre lo que está sucediendo aquí. Creo que puede haber habido algunos errores cometidos por accidente. Vea si la siguiente historia tiene sentido: Para comenzar, creo que probablemente haya una fuerte relación entre X e Y en los datos (aquí hay un código y un diagrama):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

ingrese la descripción de la imagen aquí

Pero por error Y se predijo solo a partir de la media. Para agravar esto, los residuos del modelo de solo media se trazan contra X, aunque lo que se pretendía era trazar contra los valores ajustados (código y trama):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

ingrese la descripción de la imagen aquí

Podemos arreglar esto ajustando el modelo apropiado y trazando los residuos de eso (código y trama):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

ingrese la descripción de la imagen aquí

Esto parece solo el tipo de tonterías que hice cuando comencé.

gung - Restablece a Monica
fuente
0

Este gráfico indica que el modelo que instaló no es bueno. Como @gung dijo en los primeros comentarios sobre la pregunta principal, que no debería haber una relación entre la respuesta predicada y la residual.

"un analista debe esperar que un modelo de regresión erre al predecir una respuesta de manera aleatoria; el modelo debe predecir valores más altos que los reales y más bajos que los reales con la misma probabilidad. Ver esto "

Recomendaría la primera respuesta del gráfico frente a la variable independiente para ver la relación entre ellos. Puede ser razonable agregar términos polinómicos en el modelo.

Biostat
fuente
0

¿No es esto lo que sucede si no hay una relación entre la variable X e Y? Al mirar este gráfico, parece que esencialmente estás prediciendo Y con su media.

Adán
fuente
0

Creo que OP trazó los residuos frente a la variable de respuesta original (no la variable de respuesta ajustada del modelo). Veo tramas como esta todo el tiempo, con casi el mismo patrón exacto. Asegúrese de trazar los residuos frente a los valores ajustados, ya que no estoy seguro de qué inferencia significativa podría obtener de los residuos frente a la Y original. Pero ciertamente podría estar equivocado.

Todai
fuente