En la regresión lineal múltiple, puedo entender que las correlaciones entre el residual y los predictores son cero, pero ¿cuál es la correlación esperada entre el residual y la variable de criterio? ¿Debería esperarse que sea cero o altamente correlacionado? ¿Cuál es el significado de eso?
regression
residuals
Jfly
fuente
fuente
Respuestas:
En el modelo de regresión:
La suposición habitual es que , es una muestra de iid. Bajo los supuestos de que y tiene rango completo, el estimador de mínimos cuadrados ordinario:i = 1 , . . . , n E x i u i = 0 E ( x i x ′ i )(yi,xi,ui) i=1,...,n Exiui=0 E(xix′i)
es consistente y asintóticamente normal. La covarianza esperada entre un residual y la variable de respuesta es:
Si además suponemos que y , podemos calcular la covarianza esperada entre y su regresión residual:E ( u 2 i | xi 1 , . . . , Xi n ) = σ 2 y iE(ui|x1,...,xn)=0 E(u2i|x1,...,xn)=σ2 yi
Ahora para obtener la correlación necesitamos calcular y . Resulta queVar ( u i )Var ( yyo) Var ( u^yo)
por lo tanto
Ahora viene el término viene desde la diagonal de la matriz de sombreros , donde . La matriz es idempotente, por lo tanto, satisface una propiedad siguienteH=X(X'X) - 1 X'X=[ x i,. . . , x N]′HX′yo( ∑nortej = 1XjX′j)- 1Xyo H= X( X′X)- 1X′ X= [ xyo, . . . , xnorte]′ H
donde es el término diagonal de . El es el número de variables linealmente independientes en , que generalmente es el número de variables. Llamémoslo . El número de es el tamaño de la muestra . Entonces tenemos términos no negativos que deberían resumir en . Por lo general, es mucho más grande que , por lo tanto, una gran cantidad de estaría cerca del cero, lo que significa que la correlación entre la variable residual y la respuesta estaría cerca de 1 para la mayor parte de las observaciones.hyo i Rango H ( H ) x i p h i i N N p N p h i iH rango ( H) Xyo pags hyo i norte norte pags norte pags hyo i
El término también se usa en varios diagnósticos de regresión para determinar observaciones influyentes.hyo i
fuente
La correlación depende de . Si es alto, significa que gran parte de la variación en su variable dependiente puede atribuirse a la variación en sus variables independientes, y NO a su término de error.R 2R2 R2
Sin embargo, si es bajo, significa que gran parte de la variación en su variable dependiente no está relacionada con la variación en sus variables independientes y, por lo tanto, debe estar relacionada con el término de error.R2
Considere el siguiente modelo:
Y XY= Xβ+ ε , donde y no están correlacionados.Y X
Asumiendo condiciones de regularidad suficientes para que el CLT se mantenga.
0XY Y =β^ convergerá a , ya que e no están correlacionados. Por lo tanto, siempre será cero. Por lo tanto, la . e están perfectamente correlacionados !!!0 0 X Y ε : = Y - Y = Y - 0 = Y ε YY^= Xβ^ ε : = Y- Y^= Y- 0 = Y ε Y
Manteniendo todo lo demás fijo, el aumento de disminuirá la correlación entre el error y el dependiente. Una correlación fuerte no es necesariamente motivo de alarma. Esto puede significar simplemente que el proceso subyacente es ruidoso. Sin embargo, un (y, por lo tanto, una alta correlación entre error y dependiente) puede deberse a una especificación errónea del modelo.R 2R2 R2
fuente
Este tema me parece bastante interesante y las respuestas actuales son, lamentablemente, incompletas o parcialmente engañosas, a pesar de la relevancia y la gran popularidad de esta pregunta.
Por definición del marco OLS clásica no debe haber ninguna relación entreyTŷ tu^ , ya que los residuos obtenidos son por construcción correlacionada a lasal derivar el estimador MCO. La propiedad de minimización de varianza bajo homoscedasticidad asegura que el error residual se distribuya aleatoriamente alrededor de los valores ajustados. Esto puede ser demostrado formalmente por: yŷ
= P σ 2 - P σ 2 = 0
Donde y son matrices idempotentes definidas como: y .P P = X ( X ′ X ) X ′ M = I - PMETRO PAGS PAGS= X( X′X) X′ METRO= Yo- P
Este resultado se basa en una estricta exogeneidad y homocedasticidad, y prácticamente se mantiene en muestras grandes. La intuición para su uncorrelatedness es la siguiente: Los valores ajustadoscondicionada a se centran alrededor de, que se cree como distribuidos independientemente y de forma idéntica. Sin embargo, cualquier desviación de la exogeneidad y homocedasticidad estricta suposición podría causar las variables explicativas a ser endógenas y estimular una correlación latente entrey. X U U yŷ X u u ŷ
Ahora, la correlación entre los residuosy el "original" es una historia completamente diferente:yu y
Al revisar la teoría, sabemos que esta matriz de covarianza es idéntica a la matriz de covarianza del residuo residual (prueba omitida). Tenemos:u^
Si nos gustaría calcular la covarianza (escalar) entre y según lo solicitado por el OP, obtenemos:Uy u^
(= al sumar las entradas diagonales de la matriz de covarianza y dividir por N)
La fórmula anterior indica un punto interesante. Si probamos la relación haciendo retroceder en los residuos (+ constante), el coeficiente de pendiente , que puede derivarse fácilmente cuando dividimos la expresión anterior por el .u ß u , y = 1 Var ( u | X )y u^ βu^,y=1 Var(û |X)
Por otro lado, la correlación es la covarianza estandarizada por las respectivas desviaciones estándar. Ahora, la matriz de varianza de los residuos es , mientras que la varianza de es . La correlación convierte así en:y σ 2 ICorr(y,u)σ2M y σ2I Corr(y,û )
Este es el resultado central que debería mantenerse en una regresión lineal. La intuición es que el expresa el error entre la varianza verdadera del término de error y un proxy para la varianza basada en residuos. Observe que la varianza de es igual a la varianza de más la varianza de los residuos . Por lo tanto, se puede reescribir más intuitivamente como: y y uCorr (y, u ) y y^ tu^
Hay dos fuerzas aquí en el trabajo. Si tenemos un gran ajuste de la línea de regresión, se espera que la correlación sea baja debido a . Por otro lado, es un poco difícil de estimar, ya que es incondicional y una línea en el espacio de parámetros. La comparación de las variaciones incondicionales y condicionales dentro de una relación puede no ser un indicador apropiado después de todo. Quizás, por eso rara vez se hace en la práctica.Var ( Y )Var ( u ) ≈ 0 Var ( y^)
Un intento de la conclusión de la pregunta: La correlación entre yes positivo y se refiere a la relación de la varianza de los residuos y la varianza de la verdadera término de error, aproximada por la varianza incondicional en . Por lo tanto, es un poco un indicador engañoso.T yy u y
A pesar de este ejercicio nos puede dar alguna intuición sobre el funcionamiento y los supuestos teóricos inherentes de una regresión por mínimos cuadrados, que rara vez se evalúa la correlación entre y. Ciertamente, hay pruebas más establecidas para verificar las propiedades del término de error verdadero. En segundo lugar, tenga en cuenta que los residuos no son el término de error, y las pruebas de residuosque hacer predicciones de las características sobre el verdadero término de error son limitadas y su necesidad validez para ser manejados con sumo cuidado.u u uy u u tu
Por ejemplo, me gustaría señalar una declaración hecha por un póster anterior aquí. Se dice que,
Creo que eso puede no ser del todo válido en este contexto. Lo creas o no, pero los residuos MCOson por la construcción hechos para ser correlacionado con las variables independientes . Para ver esto, considere:x ku Xk
= X ′ y - X ′ X ( X ′ X )
Sin embargo, es posible que haya escuchado afirmaciones de que una variable explicativa está correlacionada con el término de error . Tenga en cuenta que tales afirmaciones se basan en suposiciones sobre toda la población con un verdadero modelo de regresión subyacente, que no observamos de primera mano. En consecuencia, la comprobación de la correlación entre y inútil en un marco OLS lineal. Sin embargo, cuando probamos la heterocedasticidad , tenemos en cuenta aquí el segundo momento condicional, por ejemplo, regresamos los residuos al cuadrado en o una función deU X Xy u X X , como suele ser el caso con los estimadores de FGSL. Esto es diferente de evaluar la correlación simple. Espero que esto ayude a aclarar las cosas.
fuente
La respuesta de Adán es incorrecta. Incluso con un modelo que se ajuste perfectamente a los datos, aún puede obtener una alta correlación entre los residuos y la variable dependiente. Esa es la razón por la que ningún libro de regresión le pide que verifique esta correlación. Puede encontrar la respuesta en el libro "Análisis de regresión aplicada" del Dr. Draper.
fuente
Por lo tanto, los residuos son su varianza inexplicable, la diferencia entre las predicciones de su modelo y el resultado real que está modelando. En la práctica, pocos modelos producidos a través de la regresión lineal tendrán todos los residuos cercanos a cero a menos que se utilice una regresión lineal para analizar un proceso mecánico o fijo.
Idealmente, los residuos de su modelo deben ser aleatorios, lo que significa que no deben estar correlacionados con sus variables independientes o dependientes (lo que usted llama la variable de criterio). En la regresión lineal, su término de error se distribuye normalmente, por lo que sus residuos también deberían distribuirse normalmente. Si tiene valores atípicos significativos, o si sus residuos están correlacionados con su variable dependiente o sus variables independientes, entonces tiene un problema con su modelo.
Si tiene valores atípicos significativos y una distribución no normal de sus residuos, entonces los valores atípicos pueden estar sesgando sus pesos (Betas), y sugeriría calcular DFBETAS para verificar la influencia de sus observaciones en sus pesos. Si sus residuos están correlacionados con su variable dependiente, entonces hay una cantidad significativamente grande de varianza inexplicada que no está contabilizando. También puede ver esto si está analizando observaciones repetidas de la misma cosa, debido a la autocorrelación. Esto puede verificarse al ver si sus residuos están correlacionados con su variable de tiempo o índice. Si sus residuos están correlacionados con sus variables independientes, entonces su modelo es heteroscedastic (ver: http://en.wikipedia.org/wiki/Heteroscedasticity) Debe verificar (si aún no lo ha hecho) si sus variables de entrada están normalmente distribuidas, y si no, entonces debería considerar escalar o transformar sus datos (los tipos más comunes son log y raíz cuadrada) para hacerlo más normalizado
En el caso de ambos, sus residuos y sus variables independientes, debe tomar un QQ-Plot, así como realizar una prueba de Kolmogorov-Smirnov (esta implementación particular a veces se conoce como la prueba de Lilliefors) para asegurarse de que sus valores Se ajusta a una distribución normal.
Tres cosas que son rápidas y pueden ser útiles para tratar este problema, son examinar la mediana de sus residuos, debe ser lo más cercano a cero posible (la media casi siempre será cero como resultado de cómo se ajusta el término de error en regresión lineal), una prueba de Durbin-Watson para la autocorrelación en sus residuos (especialmente como mencioné antes, si está observando múltiples observaciones de las mismas cosas), y realizar un gráfico residual parcial lo ayudará a buscar heterocedasticidad y valores atípicos.
fuente