Cuando se calcula el error estándar de un coeficiente de regresión, no tenemos en cuenta la aleatoriedad en la matriz de diseño . En OLS, por ejemplo, calculamos como
Si la se considerara aleatoria, la ley de la varianza total exigiría, en cierto sentido, la contribución adicional de la varianza de también. es decir
Que, si el estimador OLS es verdaderamente imparcial, el primer término desaparece ya que la expectativa es constante. El segundo término en realidad se convierte en: .
Si se conoce un modelo paramétrico para , ¿por qué no reemplazamos con la estimación de covarianza real? Por ejemplo, si es una asignación de tratamiento aleatorizada, ¿debería la varianza binomial ser una estimación más eficiente?
¿Por qué no consideramos el uso de modelos no paramétricos flexibles para estimar las posibles fuentes de sesgo en la estimación de OLS y explicar adecuadamente la sensibilidad al diseño (es decir, la distribución de ) en el primer término de ley de la ley total ?
Respuestas:
Su pregunta (más comentarios adicionales en los comentarios) parece estar principalmente interesada en el caso en el que tenemos un ensayo controlado aleatorio en el que el investigador asigna aleatoriamente una o más de las variables explicativas, según algún diseño de aleatorización. En este contexto, desea saber por qué usamos un modelo que trata las variables explicativas como constantes conocidas, en lugar de tratarlas como variables aleatorias de la distribución de muestreo impuesta por la aleatorización. (Su pregunta es más amplia que esta, pero este parece ser el caso de interés principal en el comentario, así que este es el que abordaré).
La razón por la que condicionamos las variables explicativas, en este contexto, es que en un problema de regresión para un ECA, todavía estamos interesados en la distribución condicional de la variable de respuesta dados los predictores . De hecho, en un ECA estamos interesados en determinar los efectos causales de una variable explicativa sobre la variable de respuesta , que vamos a determinar por inferencia sobre la distribución condicional (sujeto a algunos protocolos para evitar la confusión). La aleatorización se impone para romper la dependencia entre la variable explicativa y las posibles variables de confusión (es decir, evitar asociaciones de puerta trasera).X Y X †† Sin embargo, el objeto de inferencia en el problema sigue siendo la distribución condicional de la variable de respuesta dadas las variables explicativas. Por lo tanto, todavía tiene sentido estimar los parámetros en esta distribución condicional, utilizando métodos de estimación que tienen buenas propiedades para inferir la distribución condicional .
Ese es el caso normal que se aplica a un ECA utilizando técnicas de regresión. Por supuesto, hay algunas situaciones en las que tenemos otros intereses, y de hecho podríamos querer incorporar la incertidumbre sobre las variables explicativas. La incorporación de la incertidumbre en las variables explicativas generalmente ocurre en dos casos:
(1) Cuando vamos más allá del análisis de regresión y pasamos al análisis multivariante, nos interesa la distribución conjunta de las variables explicativas y de respuesta, en lugar de solo la distribución condicional de este último dado el primero. Puede haber aplicaciones donde este sea nuestro interés, por lo que luego iríamos más allá del análisis de regresión e incorporaríamos información sobre la distribución de las variables explicativas.
(2) En algunas aplicaciones de regresión nuestro interés está en la distribución condicional de la variable de respuesta condicional en una variable explicativa subyacente no observada, donde suponemos que las variables explicativas observadas estaban sujetas a error ("errores en las variables"). En este caso incorporamos incertidumbre a través de "errores en variables". La razón de esto es que nuestro interés en estos casos está en la distribución condicional , condicional en una variable subyacente no observada .
Tenga en cuenta que estos dos casos son matemáticamente más complicados que el análisis de regresión, por lo que si podemos evitar el uso del análisis de regresión, generalmente es preferible. En cualquier caso, en la mayoría de las aplicaciones del análisis de regresión, el objetivo es hacer una inferencia sobre la distribución condicional de la respuesta, dadas las variables explicativas observables, por lo que estas generalizaciones se vuelven innecesarias.
fuente
El título "errores en variables" y el contenido de la pregunta parece diferente, ya que pregunta por qué no tenemos en cuenta la variación en al modelar la respuesta condicional, es decir, en inferencia para los parámetros de regresión. Esas dos preocupaciones me parecen ortogonales, así que aquí respondo al contenido.X
He respondido a una pregunta similar antes: ¿Cuál es la diferencia entre condicionar los regresores y tratarlos como fijos? , así que aquí copiaré parte de mi respuesta allí:
Trataré de desarrollar un argumento para condicionar a los regresores de manera algo más formal. Deje que sea un vector aleatorio, y el interés está en regresión en , donde se toma de regresión en el sentido de la expectativa condicional de en . Bajo supuestos multinormales, esa será una función lineal, pero nuestros argumentos no dependen de eso. Comenzamos factorizando la densidad conjunta de la manera habitual pero esas funciones no se conocen, por lo que utilizamos un modelo parametrizado donde parametriza la distribución condicional y(Y,X) Y X Y X f(y,x)=f(y∣x)f(x) f(y,x;θ,ψ)=fθ(y∣x)fψ(x) θ ψ la distribución marginal de . En el modelo lineal normal podemos tener pero eso no se supone. El espacio de parámetros completo de es , un producto cartesiano, y los dos parámetros no tienen parte en común.X θ=(β,σ2) (θ,ψ) Θ×Ψ
Esto puede interpretarse como una factorización del experimento estadístico (o del proceso de generación de datos, DGP), la primera se genera de acuerdo con , y como un segundo paso, se genera de acuerdo con la densidad condicional . Tenga en cuenta que el primer paso no utiliza ningún conocimiento sobre , que ingresa solo en el segundo paso. La estadística es auxiliar para , consulte https://en.wikipedia.org/wiki/Ancillary_statistic .X fψ(x) Y fθ(y∣X=x) θ X θ
Pero, dependiendo de los resultados del primer paso, el segundo paso podría ser más o menos informativo sobre . Si la distribución dada por tiene una varianza muy baja, por ejemplo, las observadas se concentrarán en una región pequeña, por lo que será más difícil estimar . Entonces, la primera parte de este experimento de dos pasos determina la precisión con la que se puede estimar . Por lo tanto, es natural condicionar en inferencia sobre los parámetros de regresión. Ese es el argumento de la condicionalidad, y el esquema anterior deja en claro sus supuestos.θ fψ(x) x θ θ X=x
En experimentos diseñados, su suposición se mantendrá principalmente, a menudo con datos de observación no. Algunos ejemplos de problemas serán: regresión con respuestas rezagadas como predictores. ¡El condicionamiento de los predictores en este caso también condicionará la respuesta! (Agregaré más ejemplos).
Un libro que analiza estos problemas con mucho detalle es Información y familias exponenciales: en teoría estadística de O. E Barndorff-Nielsen. Ver especialmente el capítulo 4. El autor dice que la lógica de separación en esta situación rara vez se explica, pero da las siguientes referencias: RA Fisher (1956) Métodos estadísticos e inferencia científica y Sverdrup (1966) El estado actual de la teoría de la decisión y La teoría de Neyman-Pearson .§4.3
La factorización utilizada aquí es algo similar en espíritu al teorema de factorización de estadísticas suficientes. Si el foco está en los parámetros de regresión , y la distribución de no depende de , entonces ¿cómo podría la distribución de (o la variación en) contener información sobre ?θ X θ X θ
Este argumento de separación también es útil porque señala los casos en los que no se puede usar, por ejemplo, la regresión con respuestas rezagadas como predictores.
fuente