Tengo un modelo económico teórico que es el siguiente,
Entonces la teoría dice que hay factores , y para estimar .x 2 x 3 y
Ahora tengo los datos reales y necesito estimar , , . El problema es que el conjunto de datos real contiene solo datos para y ; no hay datos para . Entonces, el modelo que puedo ajustar en realidad es:b 2 b 3 x 1 x 2 x 3
- ¿Está bien estimar este modelo?
- ¿Pierdo algo estimándolo?
- Si , , ¿a dónde va el término ?
- ¿Se explica por el término de error ?
Y nos gustaría suponer que no está correlacionado con y .
Respuestas:
El problema por el que debe preocuparse se llama endogeneidad . Más específicamente, depende de si está correlacionado en la población con x 1 o x 2 . Si es así, entonces los b j s asociados estarán sesgados. Esto se debe a que los métodos de regresión OLS obligan a los residuos, u i , a no estar correlacionados con sus covariables, x j s. Sin embargo, sus residuos se componen de una aleatoriedad irreducible, ε i , y la variable no observada (pero relevante), x 3 , que por estipulaciónx3 x1 x2 bj ui xj εi x3 está correlacionado con y / o x 2 . Por otro lado, si tanto x 1 como x 2 no están correlacionados con x 3 en la población, entonces sus b s no estarán sesgadas por esto (pueden estar sesgadas por otra cosa, por supuesto). Una forma en que los economometristas intentan abordar este problema es mediante el uso de variables instrumentales . x1 x2 x1 x2 x3 b
En aras de una mayor claridad, he escrito una simulación rápida en R que demuestra que la distribución de muestreo de es imparcial / centrada en el verdadero valor de β 2 , cuando no está correlacionada con x 3 . En la segunda ejecución, sin embargo, tenga en cuenta que x 3 no está correlacionado con x 1 , pero no x 2 . No es coincidencia que b 1 sea imparcial, pero b 2 está sesgado.b2 β2 x3 x3 x1 x2 b1 b2
fuente
Pensemos en esto en términos geométricos. Piense en una "pelota", la superficie de una pelota. Se describe como . Ahora, si tiene los valores para x 2 , y 2 , z 2 y tiene mediciones de r 2 , puede determinar sus coeficientes "a", "b" y "c". (Podría llamarlo elipsoide, pero llamarlo bola es más simple).r2=ax2+by2+cz2+ϵ x2 y2 z2 r2
Si solo tiene los términos e y 2 , puede hacer un círculo. En lugar de definir la superficie de una pelota, describirá un círculo relleno. La ecuación en su lugar es r 2 ≤ a x 2 + b y 2 + ϵ .x2 y2 r2≤ax2+by2+ϵ
Estás proyectando la "bola", sea cual sea su forma, en la expresión del círculo. Podría ser una "bola" orientada diagonalmente que tiene la forma de una aguja de coser, por lo que los componentes destruyen por completo las estimaciones de los dos ejes. Podría ser una bola que parece un m & m casi aplastado donde los ejes de las monedas son "x" e "y", y no hay proyección. No puede saber cuál es sin la información " z ".z z
Ese último párrafo hablaba de un caso de "información pura" y no tenía en cuenta el ruido. Las mediciones del mundo real tienen la señal con ruido. El ruido a lo largo del perímetro que está alineado con los ejes tendrá un impacto mucho más fuerte en su ajuste. Aunque tenga el mismo número de muestras, tendrá más incertidumbre en sus estimaciones de parámetros. Si es una ecuación diferente a este simple caso lineal orientado a ejes, entonces las cosas pueden ir "en forma de pera ". Sus ecuaciones actuales tienen forma de plano, por lo que en lugar de tener un límite (la superficie de la bola), los datos z podrían ir por todo el mapa; la proyección podría ser un problema grave.
¿Está bien modelar? Esa es una decisión judicial. Un experto que comprenda los detalles del problema podría responder eso. No sé si alguien puede dar una buena respuesta si están lejos del problema.
Se pierden varias cosas buenas, incluida la certeza en las estimaciones de parámetros y la naturaleza del modelo que se está transformando.
La estimación para desaparece en epsilon y en las otras estimaciones de parámetros. Está subsumido por toda la ecuación, dependiendo del sistema subyacente.b3
fuente
Las otras respuestas, aunque no están equivocadas, complican un poco el problema.
fuente