¿Cuál es la correlación esperada entre la variable residual y la dependiente?

26

En la regresión lineal múltiple, puedo entender que las correlaciones entre el residual y los predictores son cero, pero ¿cuál es la correlación esperada entre el residual y la variable de criterio? ¿Debería esperarse que sea cero o altamente correlacionado? ¿Cuál es el significado de eso?

Jfly
fuente
44
¿Qué es una "variable de criterio"?
whuber
2
@whuber Supongo que Jfly se refiere a la respuesta / resultado / dependiente / etc. variable. davidmlane.com/hyperstat/A101702.html Es interesante ver los muchos nombres de esas variables: en.wikipedia.org/wiki/…
Jeromy Anglim
@ Jeromy Gracias! Supuse que ese era el significado, pero no estaba seguro. Es un término nuevo para mí, y para Wikipedia, evidentemente.
whuber
Yo hubiera pensado que esto sería igual a E[R2] o algo similar, ya que R2=[corr(y,y^)]2
probabilityislogic
y=f(x)+e , donde f es la función de regresión, e es error y Cov(f(x),e)=0 . Entonces Corr(y,e)=SD(e)/SD(y)=1R2 . Esa es la estadística de muestra; su valor esperado sería similar pero más desordenado.
Ray Koopman

Respuestas:

20

En el modelo de regresión:

yi=xiβ+ui

La suposición habitual es que , es una muestra de iid. Bajo los supuestos de que y tiene rango completo, el estimador de mínimos cuadrados ordinario:i = 1 , . . . , n E x i u i = 0 E ( x i x i )(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

es consistente y asintóticamente normal. La covarianza esperada entre un residual y la variable de respuesta es:

Eyiui=E(xiβ+ui)ui=Eui2

Si además suponemos que y , podemos calcular la covarianza esperada entre y su regresión residual:E ( u 2 i | xi 1 , . . . , Xi n ) = σ 2 y iE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

Ahora para obtener la correlación necesitamos calcular y . Resulta queVar ( u i )Var(yi)Var(u^i)

Var(u^i)=E(yiu^i),

por lo tanto

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

Ahora viene el término viene desde la diagonal de la matriz de sombreros , donde . La matriz es idempotente, por lo tanto, satisface una propiedad siguienteH=X(X'X) - 1 X'X=[ x i,. . . , x N]Hxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

donde es el término diagonal de . El es el número de variables linealmente independientes en , que generalmente es el número de variables. Llamémoslo . El número de es el tamaño de la muestra . Entonces tenemos términos no negativos que deberían resumir en . Por lo general, es mucho más grande que , por lo tanto, una gran cantidad de estaría cerca del cero, lo que significa que la correlación entre la variable residual y la respuesta estaría cerca de 1 para la mayor parte de las observaciones.hii Rango H ( H ) x i p h i i N N p N p h i iHrank(H)xiphiiNNpNphii

El término también se usa en varios diagnósticos de regresión para determinar observaciones influyentes.hii

mpiktas
fuente
10
+1 Este es exactamente el análisis correcto. Pero, ¿por qué no terminas el trabajo y respondes la pregunta? El OP pregunta si esta correlación es "alta" y qué podría significar .
whuber
Por lo tanto, se podría decir que la correlación es aproximadamente1pN
probabilidad es
1
La correlación es diferente para cada observación, pero sí, puede decir eso, siempre que X no tenga valores atípicos.
mpiktas
21

La correlación depende de . Si es alto, significa que gran parte de la variación en su variable dependiente puede atribuirse a la variación en sus variables independientes, y NO a su término de error.R 2R2R2

Sin embargo, si es bajo, significa que gran parte de la variación en su variable dependiente no está relacionada con la variación en sus variables independientes y, por lo tanto, debe estar relacionada con el término de error.R2

Considere el siguiente modelo:

Y XY=Xβ+ε , donde y no están correlacionados.YX

Asumiendo condiciones de regularidad suficientes para que el CLT se mantenga.

0XY Y =β^ convergerá a , ya que e no están correlacionados. Por lo tanto, siempre será cero. Por lo tanto, la . e están perfectamente correlacionados !!!0XY ε : = Y - Y = Y - 0 = Y ε YY^=Xβ^ε:=YY^=Y0=YεY

Manteniendo todo lo demás fijo, el aumento de disminuirá la correlación entre el error y el dependiente. Una correlación fuerte no es necesariamente motivo de alarma. Esto puede significar simplemente que el proceso subyacente es ruidoso. Sin embargo, un (y, por lo tanto, una alta correlación entre error y dependiente) puede deberse a una especificación errónea del modelo.R 2R2R2

Mate
fuente
Encuentro esta respuesta confusa, en parte, a través de su uso de " " para soportar tanto para los términos de error en el modelo y los residuos . Otro punto de confusión es la referencia a "converger en" aunque no haya ninguna secuencia de nada en evidencia a la que pueda aplicarse la convergencia. La suposición de que e no están correlacionados parece especial y no ilustra las circunstancias generales. Todo esto oscurece lo que esta respuesta podría estar tratando de decir o qué afirmaciones son generalmente ciertas. Y - YεYY^YXY
whuber
17

Este tema me parece bastante interesante y las respuestas actuales son, lamentablemente, incompletas o parcialmente engañosas, a pesar de la relevancia y la gran popularidad de esta pregunta.

Por definición del marco OLS clásica no debe haber ninguna relación entreyTŷu^ , ya que los residuos obtenidos son por construcción correlacionada a lasal derivar el estimador MCO. La propiedad de minimización de varianza bajo homoscedasticidad asegura que el error residual se distribuya aleatoriamente alrededor de los valores ajustados. Esto puede ser demostrado formalmente por: yŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

Donde y son matrices idempotentes definidas como: y .P P = X ( X X ) X M = I - PMPP=X(XX)XM=IP

Este resultado se basa en una estricta exogeneidad y homocedasticidad, y prácticamente se mantiene en muestras grandes. La intuición para su uncorrelatedness es la siguiente: Los valores ajustadoscondicionada a se centran alrededor de, que se cree como distribuidos independientemente y de forma idéntica. Sin embargo, cualquier desviación de la exogeneidad y homocedasticidad estricta suposición podría causar las variables explicativas a ser endógenas y estimular una correlación latente entrey. X U U yŷXûûŷ

Ahora, la correlación entre los residuosy el "original" es una historia completamente diferente:yûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

Al revisar la teoría, sabemos que esta matriz de covarianza es idéntica a la matriz de covarianza del residuo residual (prueba omitida). Tenemos:u^

Var(tû)=σ2METRO=Cov(y,tûEl |X)

Si nos gustaría calcular la covarianza (escalar) entre y según lo solicitado por el OP, obtenemos:Uytu^

Covsdounalunar(y,tûEl |X)=Var(tûEl |X)=(tuyo2)/ /norte

(= al sumar las entradas diagonales de la matriz de covarianza y dividir por N)

La fórmula anterior indica un punto interesante. Si probamos la relación haciendo retroceder en los residuos (+ constante), el coeficiente de pendiente , que puede derivarse fácilmente cuando dividimos la expresión anterior por el .u ß u , y = 1 Var ( u | X )ytu^βtu^,y=1Var(tûEl |X)

Por otro lado, la correlación es la covarianza estandarizada por las respectivas desviaciones estándar. Ahora, la matriz de varianza de los residuos es , mientras que la varianza de es . La correlación convierte así en:y σ 2 ICorr(y,u)σ2METROyσ2yoCorr(y,tû)

Corr(y,tû)=Var(tû)Var(tu^)Var(y)=Var(tû)Var(y)=Var(tû)σ2

Este es el resultado central que debería mantenerse en una regresión lineal. La intuición es que el expresa el error entre la varianza verdadera del término de error y un proxy para la varianza basada en residuos. Observe que la varianza de es igual a la varianza de más la varianza de los residuos . Por lo tanto, se puede reescribir más intuitivamente como: y y uCorr(y,tû)yy^tu^

Corr(y,tû)=11+Var(y)^Var(tû)

Hay dos fuerzas aquí en el trabajo. Si tenemos un gran ajuste de la línea de regresión, se espera que la correlación sea baja debido a . Por otro lado, es un poco difícil de estimar, ya que es incondicional y una línea en el espacio de parámetros. La comparación de las variaciones incondicionales y condicionales dentro de una relación puede no ser un indicador apropiado después de todo. Quizás, por eso rara vez se hace en la práctica.Var ( Y )Var(tû)0 0Var(y^)

Un intento de la conclusión de la pregunta: La correlación entre yes positivo y se refiere a la relación de la varianza de los residuos y la varianza de la verdadera término de error, aproximada por la varianza incondicional en . Por lo tanto, es un poco un indicador engañoso.T yytûy

A pesar de este ejercicio nos puede dar alguna intuición sobre el funcionamiento y los supuestos teóricos inherentes de una regresión por mínimos cuadrados, que rara vez se evalúa la correlación entre y. Ciertamente, hay pruebas más establecidas para verificar las propiedades del término de error verdadero. En segundo lugar, tenga en cuenta que los residuos no son el término de error, y las pruebas de residuosque hacer predicciones de las características sobre el verdadero término de error son limitadas y su necesidad validez para ser manejados con sumo cuidado.u u uytûtûtu

Por ejemplo, me gustaría señalar una declaración hecha por un póster anterior aquí. Se dice que,

"Si sus residuos están correlacionados con sus variables independientes, entonces su modelo es heteroscedastico ..."

Creo que eso puede no ser del todo válido en este contexto. Lo creas o no, pero los residuos MCOson por la construcción hechos para ser correlacionado con las variables independientes . Para ver esto, considere:x ktûXk

= X y - X X ( X X )

Xtuyo=XMETROy=X(yo-PAGS)y=Xy-XPAGSy
=Xy-XX(XX)Xy=Xy-Xy=0 0
Xtuyo=0 0Cov(X,tuyoEl |X)=0 0Cov(Xkyo,tuyoEl |Xkyo)=0 0

Sin embargo, es posible que haya escuchado afirmaciones de que una variable explicativa está correlacionada con el término de error . Tenga en cuenta que tales afirmaciones se basan en suposiciones sobre toda la población con un verdadero modelo de regresión subyacente, que no observamos de primera mano. En consecuencia, la comprobación de la correlación entre y inútil en un marco OLS lineal. Sin embargo, cuando probamos la heterocedasticidad , tenemos en cuenta aquí el segundo momento condicional, por ejemplo, regresamos los residuos al cuadrado en o una función deU X XytûXX, como suele ser el caso con los estimadores de FGSL. Esto es diferente de evaluar la correlación simple. Espero que esto ayude a aclarar las cosas.

Majte
fuente
1
Tenga en cuenta que tenemos (al menos aproximadamente de todos modos). Esto le da a que es una intuición adicional sobre lo que mencionas en párrafos posteriores. corr(y, u )=vunar(tu^)vunar(y)=SSmiTSS=1-R2corr(y,u^)=1R2
probabilidadislogic
2
Lo que me parece interesante de esta respuesta es que la correlación siempre es positiva.
probabilidadislogic
Usted declara que es una matriz, pero divide por ella. Var(y)
mpiktas
@probabilityislogic: No estoy seguro si puedo seguir tu paso. Sería entonces debajo de la raíz cuadrada 1+ (1/1-R ^ 2), que es (2-R ^ 2) / (1-R ^ 2)? Sin embargo, lo que es cierto es que sigue siendo positivo. La intuición es que si tiene una línea a través de un diagrama de dispersión y regresa esta línea en los errores de esa línea, debería ser obvio que a medida que el valor y de esa línea aumenta, el valor de los residuos también aumenta. Esto se debe a que los residuos dependen positivamente de y por construcción.
Majte
@mpiktas: en este caso, la matriz se convierte en un escalar, ya que estamos tratando y solo en una dimensión.
Majte
6

La respuesta de Adán es incorrecta. Incluso con un modelo que se ajuste perfectamente a los datos, aún puede obtener una alta correlación entre los residuos y la variable dependiente. Esa es la razón por la que ningún libro de regresión le pide que verifique esta correlación. Puede encontrar la respuesta en el libro "Análisis de regresión aplicada" del Dr. Draper.

Jeff
fuente
3
Incluso si es correcto, esto es más una afirmación que una respuesta según los estándares de CV, @Jeff. ¿Te importaría elaborar / respaldar tu reclamo? Incluso un número de página y edición de Draper & Smith sería suficiente.
gung - Restablece a Monica
4

Por lo tanto, los residuos son su varianza inexplicable, la diferencia entre las predicciones de su modelo y el resultado real que está modelando. En la práctica, pocos modelos producidos a través de la regresión lineal tendrán todos los residuos cercanos a cero a menos que se utilice una regresión lineal para analizar un proceso mecánico o fijo.

Idealmente, los residuos de su modelo deben ser aleatorios, lo que significa que no deben estar correlacionados con sus variables independientes o dependientes (lo que usted llama la variable de criterio). En la regresión lineal, su término de error se distribuye normalmente, por lo que sus residuos también deberían distribuirse normalmente. Si tiene valores atípicos significativos, o si sus residuos están correlacionados con su variable dependiente o sus variables independientes, entonces tiene un problema con su modelo.

Si tiene valores atípicos significativos y una distribución no normal de sus residuos, entonces los valores atípicos pueden estar sesgando sus pesos (Betas), y sugeriría calcular DFBETAS para verificar la influencia de sus observaciones en sus pesos. Si sus residuos están correlacionados con su variable dependiente, entonces hay una cantidad significativamente grande de varianza inexplicada que no está contabilizando. También puede ver esto si está analizando observaciones repetidas de la misma cosa, debido a la autocorrelación. Esto puede verificarse al ver si sus residuos están correlacionados con su variable de tiempo o índice. Si sus residuos están correlacionados con sus variables independientes, entonces su modelo es heteroscedastic (ver: http://en.wikipedia.org/wiki/Heteroscedasticity) Debe verificar (si aún no lo ha hecho) si sus variables de entrada están normalmente distribuidas, y si no, entonces debería considerar escalar o transformar sus datos (los tipos más comunes son log y raíz cuadrada) para hacerlo más normalizado

En el caso de ambos, sus residuos y sus variables independientes, debe tomar un QQ-Plot, así como realizar una prueba de Kolmogorov-Smirnov (esta implementación particular a veces se conoce como la prueba de Lilliefors) para asegurarse de que sus valores Se ajusta a una distribución normal.

Tres cosas que son rápidas y pueden ser útiles para tratar este problema, son examinar la mediana de sus residuos, debe ser lo más cercano a cero posible (la media casi siempre será cero como resultado de cómo se ajusta el término de error en regresión lineal), una prueba de Durbin-Watson para la autocorrelación en sus residuos (especialmente como mencioné antes, si está observando múltiples observaciones de las mismas cosas), y realizar un gráfico residual parcial lo ayudará a buscar heterocedasticidad y valores atípicos.

Adán
fuente
Muchas gracias. Tu explicación es muy útil para mí.
Jfly
1
+1 Buena respuesta integral. Voy a hacer nitpick en 2 puntos. "Si sus residuos están correlacionados con sus variables independientes, entonces su modelo es heteroscedastic". Diría que si la varianza de sus residuos depende del nivel de una variable independiente, entonces tiene heteroscedasticidad. Además, he escuchado las pruebas de Kolmogorov-Smirnov / Lilliefors descritas como "notoriamente poco confiables", y en la práctica ciertamente he encontrado que esto es cierto. Es mejor hacer una determinación subjetiva basada en un gráfico QQ o un histograma simple.
rolando2
44
La afirmación de que "los residuos de su modelo ... no deben correlacionarse con ... su ... variable dependiente" no es generalmente cierta, como se explica en otras respuestas en este hilo. ¿Te importaría corregir esta publicación?
gung - Restablece a Monica
1
(-1) Creo que esta publicación no es lo suficientemente relevante para la pregunta formulada. Es bueno como consejo general, pero quizás sea un caso de la "respuesta correcta a la pregunta incorrecta".
probabilityislogic