Estimando lugar de

14

Tengo un modelo económico teórico que es el siguiente,

y=a+b1x1+b2x2+b3x3+u

Entonces la teoría dice que hay factores , y para estimar .x 2 x 3 yx1x2x3y

Ahora tengo los datos reales y necesito estimar , , . El problema es que el conjunto de datos real contiene solo datos para y ; no hay datos para . Entonces, el modelo que puedo ajustar en realidad es:b 2 b 3 x 1 x 2 x 3b1b2b3x1x2x3

y=a+b1x1+b2x2+u
  • ¿Está bien estimar este modelo?
  • ¿Pierdo algo estimándolo?
  • Si , , ¿a dónde va el término ?b1b2b3x3
  • ¿Se explica por el término de error ?u

Y nos gustaría suponer que no está correlacionado con y .x3x1x2

renathy
fuente
¿Puede dar detalles sobre su conjunto de datos, es decir, su variable dependiente las variables independientes y ? x 1 x 2yx1x2
Vara
Piense en ello como un ejemplo hipotético sin un conjunto de datos específico ...
renathy

Respuestas:

20

El problema por el que debe preocuparse se llama endogeneidad . Más específicamente, depende de si está correlacionado en la población con x 1 o x 2 . Si es así, entonces los b j s asociados estarán sesgados. Esto se debe a que los métodos de regresión OLS obligan a los residuos, u i , a no estar correlacionados con sus covariables, x j s. Sin embargo, sus residuos se componen de una aleatoriedad irreducible, ε i , y la variable no observada (pero relevante), x 3 , que por estipulaciónx3x1x2bjuixjεix3está correlacionado con y / o x 2 . Por otro lado, si tanto x 1 como x 2 no están correlacionados con x 3 en la población, entonces sus b s no estarán sesgadas por esto (pueden estar sesgadas por otra cosa, por supuesto). Una forma en que los economometristas intentan abordar este problema es mediante el uso de variables instrumentales . x1x2 x1x2x3b

En aras de una mayor claridad, he escrito una simulación rápida en R que demuestra que la distribución de muestreo de es imparcial / centrada en el verdadero valor de β 2 , cuando no está correlacionada con x 3 . En la segunda ejecución, sin embargo, tenga en cuenta que x 3 no está correlacionado con x 1 , pero no x 2 . No es coincidencia que b 1 sea ​​imparcial, pero b 2 está sesgado. b2β2x3x3x1x2b1b2

library(MASS)                          # you'll need this package below
N     = 100                            # this is how much data we'll use
beta0 = -71                            # these are the true values of the
beta1 = .84                            # parameters
beta2 = .64
beta3 = .34

############## uncorrelated version

b0VectU = vector(length=10000)         # these will store the parameter
b1VectU = vector(length=10000)         # estimates
b2VectU = vector(length=10000)
set.seed(7508)                         # this makes the simulation reproducible

for(i in 1:10000){                     # we'll do this 10k times
  x1 = rnorm(N)
  x2 = rnorm(N)                        # these variables are uncorrelated
  x3 = rnorm(N)
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
  mod = lm(y~x1+x2)                    # note all 3 variables are relevant
                                       # but the model omits x3
  b0VectU[i] = coef(mod)[1]            # here I'm storing the estimates
  b1VectU[i] = coef(mod)[2]
  b2VectU[i] = coef(mod)[3]
}
mean(b0VectU)  # [1] -71.00005         # all 3 of these are centered on the
mean(b1VectU)  # [1] 0.8399306         # the true values / are unbiased
mean(b2VectU)  # [1] 0.6398391         # e.g., .64 = .64

############## correlated version

r23 = .7                               # this will be the correlation in the
b0VectC = vector(length=10000)         # population between x2 & x3
b1VectC = vector(length=10000)
b2VectC = vector(length=10000)
set.seed(2734)

for(i in 1:10000){
  x1 = rnorm(N)
  X  = mvrnorm(N, mu=c(0,0), Sigma=rbind(c(  1, r23),
                                         c(r23,   1)))
  x2 = X[,1]
  x3 = X[,2]                           # x3 is correated w/ x2, but not x1
  y  = beta0 + beta1*x1 + beta2*x2 + beta3*x3 + rnorm(100)
                                       # once again, all 3 variables are relevant
  mod = lm(y~x1+x2)                    # but the model omits x3
  b0VectC[i] = coef(mod)[1]
  b1VectC[i] = coef(mod)[2]            # we store the estimates again
  b2VectC[i] = coef(mod)[3]
}
mean(b0VectC)  # [1] -70.99916         # the 1st 2 are unbiased
mean(b1VectC)  # [1] 0.8409656         # but the sampling dist of x2 is biased
mean(b2VectC)  # [1] 0.8784184         # .88 not equal to .64
gung - Restablece a Monica
fuente
Entonces, ¿puedes explicar un poco más? ¿Qué sucede si asumimos que x3 no está correlacionado con $ x_1 y x2? Entonces, ¿qué sucede si calculo y = a + b1x1 + b2x2 + u?
Renathy
1
se incorporará a los residuos de cualquier manera, perosino está correlacionado en la población, entonces sus otros b s no estarán sesgados por la ausencia de x 3 , pero si no está correlacionado, entonces lo estarán. b3x3bx3
gung - Restablece a Monica
Para decir esto más claramente: Si no está correlacionado con x 1 o x 2 , está bien. x3x1x2
gung - Restablece a Monica
Discuto el otro lado de este problema en mi respuesta aquí: ¿Agregar más variables en una regresión multivariable cambia los coeficientes de las variables existentes?
gung - Restablece a Monica
3

Pensemos en esto en términos geométricos. Piense en una "pelota", la superficie de una pelota. Se describe como . Ahora, si tiene los valores para x 2 , y 2 , z 2 y tiene mediciones de r 2 , puede determinar sus coeficientes "a", "b" y "c". (Podría llamarlo elipsoide, pero llamarlo bola es más simple).r2=ax2+by2+cz2+ϵx2y2z2r2

Si solo tiene los términos e y 2 , puede hacer un círculo. En lugar de definir la superficie de una pelota, describirá un círculo relleno. La ecuación en su lugar es r 2a x 2 + b y 2 + ϵ . x2y2r2ax2+by2+ϵ

Estás proyectando la "bola", sea cual sea su forma, en la expresión del círculo. Podría ser una "bola" orientada diagonalmente que tiene la forma de una aguja de coser, por lo que los componentes destruyen por completo las estimaciones de los dos ejes. Podría ser una bola que parece un m & m casi aplastado donde los ejes de las monedas son "x" e "y", y no hay proyección. No puede saber cuál es sin la información " z ".zz

Ese último párrafo hablaba de un caso de "información pura" y no tenía en cuenta el ruido. Las mediciones del mundo real tienen la señal con ruido. El ruido a lo largo del perímetro que está alineado con los ejes tendrá un impacto mucho más fuerte en su ajuste. Aunque tenga el mismo número de muestras, tendrá más incertidumbre en sus estimaciones de parámetros. Si es una ecuación diferente a este simple caso lineal orientado a ejes, entonces las cosas pueden ir "en forma de pera ". Sus ecuaciones actuales tienen forma de plano, por lo que en lugar de tener un límite (la superficie de la bola), los datos z podrían ir por todo el mapa; la proyección podría ser un problema grave.

¿Está bien modelar? Esa es una decisión judicial. Un experto que comprenda los detalles del problema podría responder eso. No sé si alguien puede dar una buena respuesta si están lejos del problema.

Se pierden varias cosas buenas, incluida la certeza en las estimaciones de parámetros y la naturaleza del modelo que se está transformando.

La estimación para desaparece en epsilon y en las otras estimaciones de parámetros. Está subsumido por toda la ecuación, dependiendo del sistema subyacente.b3

EngrStudent - Restablece a Monica
fuente
f(x,y,z)
No puedo seguir su argumento porque no veo nada que corresponda a un "cuadrado lleno".
whuber
0

Las otras respuestas, aunque no están equivocadas, complican un poco el problema.

x3x1x2β3x3

Daniel Ludwinski
fuente