¿Cuál es la diferencia entre condicionar los regresores y tratarlos como fijos?

9

A veces suponemos que los regresores son fijos, es decir, no son estocásticos. Creo que eso significa que todos nuestros predictores, estimaciones de parámetros, etc. son incondicionales, ¿verdad? ¿Podría incluso ir tan lejos que ya no son variables aleatorias?

Si, por otro lado, aceptamos que la mayoría de los regresores en economía dicen que son estocásticos porque ninguna fuerza externa los determinó con algún experimento en mente. Los econométricos luego condicionan estos regresores estocásticos.

¿Cómo es esto diferente de tratarlos como fijos?

Entiendo lo que es el condicionamiento. Matemáticamente, significa que condicionamos todas las observaciones e inferencias a ese conjunto particular de regresores y no tenemos la ambición de decir que las inferencias, estimaciones de parámetros, estimaciones de varianza, etc. habrían sido las mismas si hubiéramos visto una realización diferente de nuestros regresores (tal es el quid de la serie temporal, donde cada serie temporal solo se ve una vez).

Sin embargo, para comprender realmente la diferencia entre los regresores fijos versus el condicionamiento de los regresores estocásticos, me pregunto si alguien aquí conoce un ejemplo de un procedimiento de estimación o inferencia que sea válido para dichos regresores fijos, pero se descompone cuando son estocásticos (y lo hará estar condicionado por).

¡Espero ver esos ejemplos!

Hirek
fuente
2
¿Conoces los modelos de errores en variables?
robin.datadrivers
Hola @ robin.datadrivers no, en realidad no lo soy.
Hirek
1
Estos son modelos diseñados específicamente para ajustar las estimaciones del error de medición en las variables independientes. No es lo mismo que los regresores estocásticos, pero podría ser útil que eche un vistazo. Además, la investigación de encuestas en general a menudo supone que las variables independientes recolectadas por las encuestas tienen un error de muestreo; probablemente hay modelos que explican el error de muestreo.
robin.datadrivers
1
Otro pensamiento que encontré fue utilizar modelos bayesianos. Los modelos bayesianos pueden tratar los regresores como aleatorios, especificando una distribución previa para ellos. Normalmente, si se tratan como fijos, usted especifica una distribución previa solo para los parámetros (coeficientes, medias, variaciones), pero cuando le faltan covariables o resultados, especifica una distribución previa para ellos. No sé exactamente cómo lo implementaría sin pensarlo más, pero tal vez haya una manera de especificar una distribución previa para cada variable independiente.
robin.datadrivers

Respuestas:

3

Aquí estoy en hielo, pero déjenme intentarlo: tengo la sensación (¡por favor, comenten!) De que una diferencia principal entre las estadísticas y la econometría es que en las estadísticas tendemos a considerar los regresores como fijos, de ahí la matriz de diseño de terminología que obviamente proviene de diseño de experimentos, donde la suposición es que nos estamos primera eligiendo y luego fijar las variables explicativas.

Pero para la mayoría de los conjuntos de datos, la mayoría de las situaciones, este es un mal ajuste. Realmente estamos observando las variables explicativas, y en ese sentido se encuentran al mismo nivel que las variables de respuesta, ambas están determinadas por algún proceso aleatorio fuera de nuestro control. Al considerar las como "fijas", decidimos no considerar muchos problemas que podrían causar. x

Al considerar a los regresores como estocásticos, por otro lado, como suelen hacer los economometristas, abrimos la posibilidad de modelar los que intentan considerar tales problemas. Una breve lista de problemas que luego podríamos considerar e incorporar al modelado es:

  • errores de medida en los regresores
  • correlaciones entre regresores y términos de error
  • respuesta rezagada como regresor
  • ...

Probablemente, ¿eso debería hacerse con mucha más frecuencia de lo que se hace hoy?

EDIT 

Trataré de desarrollar un argumento para condicionar a los regresores de manera algo más formal. Deje que sea un vector aleatorio, y el interés está en regresión en , donde se toma de regresión en el sentido de la expectativa condicional de en . Bajo supuestos multinormales, esa será una función lineal, pero nuestros argumentos no dependen de eso. Comenzamos factorizando la densidad conjunta de la manera habitual pero esas funciones no se conocen, por lo que utilizamos un modelo parametrizado donde parametriza la distribución condicional y(Y,X)YXYX

f(y,x)=f(yx)f(x)
f(y,x;θ,ψ)=fθ(yx)fψ(x)
θψla distribución marginal de . En el modelo lineal normal podemos tener pero eso no se supone. El espacio de parámetros completo de es , un producto cartesiano, y los dos parámetros no tienen parte en común.Xθ=(β,σ2)(θ,ψ)Θ×Ψ

Esto puede interpretarse como una factorización del experimento estadístico (o del proceso de generación de datos, DGP), la primera se genera de acuerdo con , y como un segundo paso, se genera de acuerdo con la densidad condicional . Tenga en cuenta que el primer paso no utiliza ningún conocimiento sobre , que ingresa solo en el segundo paso. La estadística es auxiliar para , consulte https://en.wikipedia.org/wiki/Ancillary_statistic .Xfψ(x)Yfθ(yX=x)θXθ

Pero, dependiendo de los resultados del primer paso, el segundo paso podría ser más o menos informativo sobre . Si la distribución dada por tiene una varianza muy baja, por ejemplo, las observadas se concentrarán en una región pequeña, por lo que será más difícil estimar . Entonces, la primera parte de este experimento de dos pasos determina la precisión con la que se puede estimar . Por lo tanto, es natural condicionar en inferencia sobre los parámetros de regresión. Ese es el argumento de la condicionalidad, y el esquema anterior deja en claro sus supuestos.θfψ(x)xθθX=x

En experimentos diseñados, su suposición se mantendrá principalmente, a menudo con datos de observación no. Algunos ejemplos de problemas serán: regresión con respuestas rezagadas como predictores. ¡El condicionamiento de los predictores en este caso también condicionará la respuesta! (Agregaré más ejemplos).

Un libro que analiza estos problemas con mucho detalle es Información y familias exponenciales: en teoría estadística de O. E Barndorff-Nielsen. Ver especialmente el capítulo 4. El autor dice que la lógica de separación en esta situación rara vez se explica, pero da las siguientes referencias: RA Fisher (1956) Métodos estadísticos e inferencia científica y Sverdrup (1966) El estado actual de la teoría de la decisión y La teoría de Neyman-Pearson .§4.3

kjetil b halvorsen
fuente