Utilidad del teorema de Frisch-Waugh

15

Se supone que debo enseñar el teorema de Frish Waugh en econometría, que no he estudiado.

He entendido las matemáticas detrás de esto y espero que la idea también "el coeficiente que obtienes para un coeficiente particular de un modelo lineal múltiple sea igual al coeficiente del modelo de regresión simple si" eliminas "la influencia de los otros regresores". Entonces la idea teórica es genial. (Si entendí totalmente mal, agradezco una corrección)

¿Pero tiene algunos usos clásicos / prácticos?

EDITAR : He aceptado una respuesta, pero todavía estoy dispuesto a tener otras nuevas que traigan otros ejemplos / aplicaciones.

Anthony Martin
fuente
44
¿Una obvia se agregaría parcelas variables ?
Silverfish
1
La Introducción a Econometría de Dougherty menciona otro ejemplo del uso del teorema de Frisch-Waugh-Lovell. En los primeros días del análisis econométrico de series de tiempo, era bastante común en los modelos en los que las variables tenían tendencias temporales deterministas para reducir su tendencia antes de retroceder. Pero por FWL, obtienes los mismos coeficientes simplemente al incluir una tendencia de tiempo como regresor, y además esto da los errores estándar "correctos", ya que reconoce que se ha consumido 1 df.
Silverfish
1
Dougherty advierte contra el procedimiento, por lo que a ese respecto no es un gran ejemplo, a pesar de que es instructivo. Las variables económicas a menudo parecen ser estacionarias en lugar de tendencias estacionarias, por lo que este tipo de intento de tendencia no funciona y puede dar lugar a regresiones espurias.
Silverfish
1
@Silverfish: FWL es una técnica puramente algebraica, por lo que la cuestión de si extraer una tendencia determinista es "correcto" dado el DGP subyacente es sin duda importante, pero en mi opinión no está relacionado con FWL, por lo que su ejemplo es perfectamente válido para Los OP cuestionan las dos formas de obtener estimaciones puntuales.
Christoph Hanck
2
He explotado esta relación en muchas publicaciones, principalmente con fines conceptuales y para proporcionar ejemplos interesantes de fenómenos de regresión. Consulte, entre otras , stats.stackexchange.com/a/46508 , stats.stackexchange.com/a/113207 y stats.stackexchange.com/a/71257 .
whuber

Respuestas:

14

Considere el modelo de datos del panel de efectos fijos, también conocido como modelo de variables ficticias de mínimos cuadrados (LSDV).

puede calcularse aplicando OLS directamente al modelo y = X β + D α + ϵ , donde D es unamatriz de tontos N T × N y α representa los efectos fijos específicos de cada individuo.bLSDV

y=Xβ+Dα+ϵ,
DNT×Nα

Otra forma de calcular es aplicar la llamada transformación dentro del modelo habitual para obtener una versión degradada del mismo, es decir, M [ D ] y = M [ D ] X β + M [ D ] ϵ . Aquí, M [ D ] = I - D ( D D ) - 1 D , la matriz creadora residual de una regresión enbLSDV

M[D]y=M[D]Xβ+M[D]ϵ.
M[D]=ID(DD)1D .D

Por el teorema de Frisch-Waugh-Lovell, los dos son equivalentes, como dice FWL que se puede calcular un subconjunto de los coeficientes de regresión de una regresión (en este ) porβ^

  1. retrocediendo en los otros regresores (aquí, D ), guardando los residuos (aquí, el tiempo degradado y o M [ D ] y , porque la regresión en una constante solo degrada las variables), entoncesyDyM[D]y
  2. retroceder la en D y guardar los residuos M [ D ] X , yXDM[D]X
  3. regresión de los residuos sobre la otra, en M [ D ] X .M[D]yM[D]X

La segunda versión es mucho más utilizada, porque los conjuntos de datos de panel típicos pueden tener miles de unidades de panel , por lo que el primer enfoque requeriría que ejecute una regresión con miles de regresores, lo que no es una buena idea numéricamente incluso hoy en día con rapidez computadoras, ya que calcular el inverso de ( D : X ) ( D : X ) sería muy costoso, mientras que degradar el tiempo y y X es de bajo costo.N(D:X)(D:X)yX

Christoph Hanck
fuente
Muchas gracias, este es el tipo de respuesta que estaba buscando, a pesar de que es un poco avanzado para usarlo. Entonces tu respuesta está bien conmigo, pero sería feliz si tuviera otras, ¿se supone que debo aceptar la tuya?
Anthony Martin
Si ayudara, sería apropiado hacerlo. Pero aceptar reducirá sus posibilidades de obtener mejores respuestas, por lo que puede considerar esperar antes de aceptar esta. Una recompensa aumentaría aún más sus posibilidades de obtener más respuestas, dado que no hay suficientes usuarios en CV que respondan regularmente a las preguntas dada la cantidad de preguntas, incluso una sola respuesta puede llevar a otros usuarios activos a concluir que las preguntas han sido tratadas. (Publiqué una respuesta algo más simple a continuación.)
Christoph Hanck
7

Aquí hay una versión simplificada de mi primera respuesta, que creo que es menos relevante en la práctica, pero posiblemente más fácil de "vender" para uso en el aula.

yi=β1+j=2Kβjxij+ϵi
yiy¯=j=2Kβj(xijx¯j)+ϵ~i
yield identical β^j, j=2,,K. This can be seen as follows: take x1=1:=(1,,1) and hence
M1=I1(11)11=I11n,
so that
M1xj=xj1n11xj=xj1x¯j=:xjx¯j.
Hence, the residuals of a regression of variables on a constant, M1xj, are just the demeaned variables (the same logic of course applies to yi).
Christoph Hanck
fuente
4

Here is another, more indirect, but I believe interesting one, namely the connection between different approaches to computing the partial autocorrelation coefficient of a stationary time series.

Definition 1

Consider the projection

Y^tμ=α1(m)(Yt1μ)+α2(m)(Yt2μ)++αm(m)(Ytmμ)
The mth partial autocorrelation equals αm(m).

It thus gives the influence of the mth lag on Yt \emph{after controlling for} Yt1,,Ytm+1. Contrast this with ρm, that gives the `raw' correlation of Yt and Ytm.

How do we find the αj(m)? Recall that a fundamental property of a regression of Zt on regressors Xt is that the coefficients are such that regressors and residuals are uncorrelated. In a population regression this condition is then stated in terms of population correlations. Then:

E[Xt(ZtXtα(m))]=0
Solving for α(m) we find the linear projection coefficients
α(m)=[E(XtXt)]1E[XtZt]
Applying this formula to Zt=Ytμ and
Xt=[(Yt1μ),(Yt2μ),,(Ytmμ)]
we have
E(XtXt)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)
Also,
E(XtZt)=(γ1γm)
Hence,
α(m)=(γ0γ1γm1γ1γ0γm2γm1γm2γ0)1(γ1γm)
The mth partial correlation then is the last element of the vector α(m).

So, we sort of run a multiple regression and find one coefficient of interest while controlling for the others.

Definition 2

The mth partial correlation is the correlation of the prediction error of Yt+m predicted with Yt1,,Ytm+1 with the prediction error of Yt predicted with Yt1,,Ytm+1.

So, we sort of first control for the intermediate lags and then compute the correlation of the residuals.

Christoph Hanck
fuente