Esta es la pregunta muy estándar sobre las variables instrumentales de los modelos lineales de ecuación única. Dadas las primitivas de su pregunta, la única variable endógena es el ejercicio . Para responder a esta pregunta en particular, necesita una variable exógena, z , que satisfaga dos condiciones:
- cov (z, u) = 0.
- Debe haber una relación entre la variable endógena y esta variable exógena que está proponiendo, pero que no formaba parte del verdadero modelo postulado (el modelo estructural). En otras palabras,
con , y ortogonal a todas sus variables explicativas (que no sean ejercicio) y a z.
e x e r c i s e = β0 0+ β1a ge + β2w e i gh t + β3h e i gh t + β4 4m a l e + β5 5w o r k + ϕ z+ εe x e r c i s e
ϕ ≠ 0E(εexercise)=0
Antes de continuar, un comentario. Por modelo estructural quiero decir, siguiendo la convención de Wooldridge y Goldberger, el modelo postulado. Es decir, el modelo que establece la relación causal entre la salud y sus covariables. Esta es una diferencia clave y un desacuerdo con las respuestas anteriores.
Ahora, volviendo al problema en cuestión, la condición 2 es lo que en la literatura de ecuaciones simultáneas llama la ecuación de forma reducida , que no es más que una proyección lineal de lo endógeno sobre todas las variables exógenas, incluida z.
Ahora, conecte el formulario reducido a su modelo postulado y obtendrá
health=α0+α1age+α2weight+α3height+α4male+α5work+δz+ν
donde , y . Según la definición de proyección lineal, no está correlacionado con todas las variables explicativas y, por lo tanto, los MCO de esta última ecuación producirán estimaciones consistentes para y , no el subyacente en el modelo verdadero.
αi=bi+b6βi,∀i∈{1,…,5}δ=b6ϕν=u+b6εexerciseναiδbi
La identificación requiere un poco de manipulación en forma de matriz, pero esencialmente se reduce a la llamada condición de rango . Defina y para que su modelo estructural sea . Ahora defina . Por la condición 1 (cov (z, u) = 0 para que E (z, u) = 0),
Si multiplica los lados del modelo estructural por y tome las expectativas que tiene
condición de rango indica queb=(b0,…,b6)′x=(1,age,…,exercise)′health=x′b+uE ( z u ) = 0 z E ( z x ′ ) b = E ( z y ) E ( z x ′ ) r a n k ( E ( z x ′ ) = 6 b [ E ( z x ′ ) ] - 1 E ( z y )z≡(1,age,…,work,z)′
E(zu)=0
zE(zx′)b=E(zy)
E(zx′)es el rango completo de la columna. En este ejemplo particular y las condiciones dadas en z esto es equivalente a Por lo tanto, tenemos 6 ecuaciones en 6 incógnitas. Por lo tanto, existe una única la solución para el sistema, es decir, se identifica y es igual a , según se desee.
rank(E(zx′)=6b[E(zx′)]−1E(zy)
Observaciones: la condición 1 es útil para obtener la condición de momento, pero el modelo de forma reducida con es crucial para la condición de rango. Ambas condiciones son habituales.ϕ
En este punto, debería quedar claro por qué necesitamos esto. Por un lado, sin z el estimador OLS del modelo verdadero producirá estimadores inconsistentes no solo para sino para todo . Por otro lado (y algo relacionado), nuestros parámetros se identifican de manera única, por lo que estamos seguros de que estamos estimando la verdadera relación causal como se indica en nuestro modelo verdadero.b ib6bi
Con respecto a la prueba, la condición 2 (z y el ejercicio están parcialmente correlacionados) se puede probar directamente y siempre debe informar ese paso contrario al comentario en una respuesta anterior. Existe una gran literatura en relación con este paso, especialmente la literatura de instrumentos débiles.
Sin embargo, la segunda condición no se puede probar directamente. A veces puede invocar la teoría económica para justificar o proporcionar hipótesis alternativas que respalden el uso de z.