Suposiciones para derivar el estimador de MCO

14

¿Puede alguien explicarme brevemente por qué se necesitan cada uno de los seis supuestos para calcular el estimador de MCO? Solo encontré la multicolinealidad: si existe, no podemos invertir la matriz (X'X) y, a su vez, estimar el estimador general. ¿Qué pasa con los otros (por ejemplo, linealidad, cero errores medios, etc.)?

Ieva
fuente
1
¿Estás buscando una explicación conceptual o necesitas una demostración matemática?
gung - Restablece a Monica
44
Los mínimos cuadrados ordinarios son un procedimiento numérico, no necesita muchos supuestos para calcularlo (aparte de la invertibilidad). Los supuestos son necesarios para justificar la inferencia basada en ella, vea mi respuesta ayer: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen
1
¿A qué "seis supuestos" se refiere exactamente? Mencionas solo tres.
whuber
Me refiero a 1) linealidad 2) ausencia de multicolinealidad 3) cero errores medios 4) errores esféricos (homocedasticidad y no autocorrelación) 5) regresores no estocásticos y 6) distribución normal. Entonces, como entendí de la respuesta a continuación, ¿solo los primeros tres son necesarios para derivar el estimador y otros solo son necesarios para asegurarse de que el estimador sea AZUL?
Ieva

Respuestas:

23

Siempre puede calcular el estimador OLS, aparte del caso cuando tiene una multicolinealidad perfecta. En este caso, tiene una dependencia multilineal perfecta en su matriz X. En consecuencia, la suposición de rango completo no se cumple y no puede calcular el estimador OLS, debido a problemas de invertibilidad.

Técnicamente, no necesita los otros supuestos de OLS para calcular el estimador de OLS. Sin embargo, de acuerdo con el teorema de Gauss-Markov, debe cumplir con el supuesto OLS (supuestos clrm) para que su estimador sea AZUL.

Puede encontrar una extensa discusión sobre el teorema de Gauss-Markov y su derivación matemática aquí:

http://economictheoryblog.com/2015/02/26/markov_theorem/

Además, si está buscando una descripción general del supuesto de OLS, es decir, cuántos hay, qué requieren y qué sucede si viola el supuesto de OLS único, puede encontrar una discusión elaborada aquí:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

Espero que ayude, ¡salud!

Simon Degonda
fuente
14

Lo siguiente se basa en secciones transversales simples, para series de tiempo y paneles es algo diferente.

  1. En la población, y por lo tanto en la muestra, el modelo se puede escribir como: Este es el supuesto de linealidad, que a veces se malinterpreta. El modelo debe ser lineal en los parámetros, es decir, elβk. Eres libre de hacer lo que quieras con laxi. Registros, cuadrados, etc. Si este no es el caso, entonces el modelo no puede ser estimado por OLS; necesita algún otro estimador no lineal.
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. Una muestra aleatoria (para secciones transversales) Esto es necesario para inferencia y propiedades de muestra. Es algo irrelevante para la mecánica pura de OLS.
  3. Sin colinealidad perfecta Esto significa que no puede haber una relación perfecta entre . Esta es la suposición que asegura que ( X X ) sea ​​no singular, de modo que exista ( X X ) - 1 .xi(XX)(XX)1
  4. Media condicional cero: . Esto significa que ha especificado correctamente el modelo de manera que: no hay variables omitidas, y la forma funcional que estimó es correcta en relación con el modelo de población (desconocido). Esta es siempre la suposición problemática con OLS, ya que no hay forma de saber si es realmente válida o no.E(u|X)=0
  5. La varianza del término de errores es constante, condicional en todo : V a r ( u | X ) = σ 2 Nuevamente, esto no significa nada para la mecánica de OLS, pero asegura que los errores estándar habituales sean válidos.XiVar(u|X)=σ2
  6. Normalidad; el término de errores u es independiente de , y sigue a u N ( 0 , σ 2 ) . Nuevamente, esto es irrelevante para la mecánica de OLS, pero asegura que la distribución de muestreo de β k sea ​​normal, ^ β kN ( β k , V a r ( ^ β k ) ) .XiuN(0,σ2)βkβk^N(βk,Var(βk^))

Ahora para las implicaciones.

  1. Bajo 1 - 6 (los supuestos del modelo lineal clásico) OLS es AZUL (mejor estimador lineal imparcial), mejor en el sentido de la varianza más baja. También es eficiente entre todos los estimadores lineales, así como todos los estimadores que utilizan alguna función de la x. Más importante aún bajo 1 - 6, OLS es también el estimador imparcial de varianza mínima. Eso significa que entre todos los estimadores insesgados (no solo los lineales) OLS tiene la varianza más pequeña. OLS también es consistente.

  2. Bajo 1 - 5 (los supuestos de Gauss-Markov) OLS es AZUL y eficiente (como se describió anteriormente).

  3. Bajo 1 - 4, OLS es imparcial y consistente.

En realidad, OLS también es consistente, bajo un supuesto más débil que saber, que: ( 1 ) E ( u ) = 0 y ( 2 ) C o v ( x j , u ) = 0 . La diferencia con los supuestos 4 es que, bajo este supuesto, no es necesario establecer la relación funcional a la perfección.(4)(1) E(u)=0(2) Cov(xj,u)=0

Repmat
fuente
Creo que pinta una imagen demasiado oscura sobre la condición media cero. Si hubiera un sesgo, minimizar la suma de las desviaciones al cuadrado no sería lo apropiado, pero por otro lado, puede capturar el sesgo cambiando la ecuación de regresión (absorbiendo el sesgo en ), y luego que no tiene media 0. En otras palabras, tanto la figura 4 es imposible verificar y fácil de ignorar. β0
user3697176
Lo siento, pero no estoy de acuerdo. ¿O tal vez te estoy malentendiendo? ¿Podrías eloborar o dar una referencia?
Repmat
No estoy hablando de una estimación distorsionada intencionalmente (como la regresión de cresta), que creo que el OP no estaba interesado. Estoy hablando de un modelo de la forma en el que --- por alguna extraña razón --- el residual ϵ tiene una media de α 0 . En este caso, es fácil hacer una transformación formal a y = α + β 0 + β 1 x 1 + +y=β0+β1x1++βxxn+ϵϵα0 , donde la media de η es cero. y=α+β0+β1x1++βxxn+ηη
user3697176
@ user3697176 Lo que escribe no es correcto. Acabo de publicar una respuesta para explicar por qué.
Alecos Papadopoulos
Si el supuesto 1 no está satisfecho, ¿no podemos seguir utilizando OLS para estimar la covarianza de la población (aunque sabemos que no hay una relación lineal)?
max
7

Un comentario en otra pregunta planteó dudas sobre la importancia de la condición , argumentando que se puede corregir mediante la inclusión de un término constante en la especificación de regresión, por lo que "se puede ignorar fácilmente".E(uX)=0

Esto no es asi. La inclusión de un término constante en la regresión absorberá la media condicional posiblemente distinta de cero del término de error si suponemos que esta media condicional ya es una constante y no una función de los regresores . Esta es la suposición crucial que debe hacerse independientemente de si incluimos un término constante o no:

E(uX)=const.

Si esto se cumple, entonces la media distinta de cero se convierte en una molestia que simplemente podemos resolver al incluir un término constante.

Pero si esto no se cumple (es decir, si la media condicional no es una constante cero o no constante ), la inclusión del término constante no resuelve el problema: lo que "absorberá" en este caso es una magnitud eso depende de la muestra específica y las realizaciones de los regresores. En realidad, el coeficiente desconocido asociado a la serie de unos, no es realmente una constante sino variable, dependiendo de los regresores a través de la media condicional no constante del término de error.

¿Qué implica esto? Para simplificar, suponga el caso más simple, donde ( i indexa las observaciones) pero que E ( u ix i ) = h ( x i ) . Es decir, que el término de error es media-independiente de las variables explicativas, excepto de los de informes contemporáneas (en X nosotros no incluimos una serie de unos).E(uiXi)=0iE(uixi)=h(xi)X

Suponga que especificamos la regresión con la inclusión de un término constante (un regresor de una serie de unos).

y=a+Xβ+ε

y notación compactadora

y=Zγ+ε

donde , Z = [ 1 : X ] , γ = ( un , ß ) ' , ε = u - una .a=(a,a,a...)Z=[1:X]γ=(a,β)ε=ua

Entonces el estimador OLS será

γ^=γ+(ZZ)1Zε

Para la imparcialidad necesitamos . PeroE[εZ]=0

E[εixi]=E[uiaxi]=h(xi)a

que no puede ser cero para todo , ya que examinamos el caso donde h ( x i ) no es una función constante. Entoncesih(xi)

E[εZ]0E(γ^)γ

y

Si , incluso si incluimos un término constante en la regresión, el estimador OLS no será imparcial , lo que significa que también se pierde el resultado de Gauss-Markov sobre la eficienciaE(uixi)=h(xi)h(xj)=E(ujxj) .

εii

uiγ^γ

E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, Hypothesis testing is no longer valid.

In other words, "finite-sample" properties are all gone.

We are left only with the option to resort to asymptotically valid inference, for which we will have to make additional assumptions.

So simply put, Strict Exogeneity cannot be "easily ignored".

Alecos Papadopoulos
fuente
I'm not completely sure I understand this. Isn't assuming that the mean is a not a function of the regressors equivalent to assuming homoscedasticity?
Batman
@Batman To what part of my post are you referring to?
Alecos Papadopoulos
Cuando dice "La inclusión de un término constante en la regresión absorberá la media condicional posiblemente distinta de cero del término de error si suponemos que esta media condicional ya es una constante y no una función de los regresores. Esta es la suposición crucial. eso debe hacerse independientemente de si incluimos un término constante o no ". ¿No es asumir que la media condicional no es una función de los regresores exactamente lo que estamos asumiendo cuando asumimos la homocedasticidad?
Batman
@Batman Homoskedasticity is an assumption about the variance. Assuming mean -independence does not imply that E(uj2x) is also a constant, which is also needed for conditional homoskedasticity. In fact, mean-independence, E(ux)=const. together with conditional heteroskedasticity, E(u2x)=g(x) is a standard model variant.
Alecos Papadopoulos