Explicación intuitiva del término en la varianza del estimador de mínimos cuadrados

18

Si es rango completo, existe el inverso de y obtenemos la estimación de mínimos cuadrados: y $X$ $X^TX$

\hat{β} = (X^{T} X)^{- 1} X Y

$\hat\beta = (X^TX)^{-1}XY$

Var (\hat{β}) = σ^{2} (X^{T} X)^{- 1}

$\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1}$

¿Cómo podemos explicar intuitivamente en la fórmula de varianza? La técnica de derivación es clara para mí. $(X^TX)^{-1}$

regression variance least-squares Daniel Yefimov
fuente

3

Es posible que desee agregar una nota para señalar que la fórmula que ha establecido para la matriz de varianza-covarianza de , suponiendo que OLS estima , es correcta solo si el se cumplen las condiciones del teorema de Gauss-Markov y, en particular, solo si la matriz de varianza-covarianza de los términos de error viene dada por , donde es la matriz de identidad y es el número de filas de (e ). La fórmula que ha proporcionado no es correcta para el caso más general de errores no esféricos.

\hat{β}

$\hat{\beta}$

\hat{β}

$\hat{\beta}$

σ^{2} I_{n}

$\sigma^2 I_n$

I_{n}

$I_n$

n \times n

$n\times n$

n

$n$

X

$X$

Y

$Y$

Mico

13

Considere una regresión simple sin un término constante, y donde el regresor único se centra en su media muestral. Entonces es ( veces) su varianza muestral y es recíproco. Entonces, cuanto mayor sea la varianza = variabilidad en el regresor, menor será la varianza del estimador de coeficientes: cuanta más variabilidad tengamos en la variable explicativa, más exactamente podremos estimar el coeficiente desconocido. $X'X$ $n$ $(X'X)^{-1}$

¿Por qué? Como cuanto más variable es un regresor, más información contiene. Cuando los regresores son muchos, esto se generaliza al inverso de su matriz de varianza-covarianza, que también tiene en cuenta la co-variabilidad de los regresores. En el caso extremo donde es diagonal, la precisión para cada coeficiente estimado depende solo de la varianza / variabilidad del regresor asociado (dada la varianza del término de error). $X'X$

Alecos Papadopoulos
fuente

¿Podría relacionar este argumento con el hecho de que la inversa de la matriz de varianza-covarianza produce la correlación parcial ?

Heisenberg

5

Una manera simple de ver es como el análogo de matriz (multivariante) de , que es la varianza del coeficiente de pendiente en la regresión OLS simple. Incluso se puede obtener para esa variación omitiendo la intersección en el modelo, es decir, realizando una regresión a través del origen. $\sigma^2 \left(\mathbf{X}^{T} \mathbf{X} \right)^{-1}$ $\frac{\sigma^2}{\sum_{i=1}^n \left(X_i-\bar{X}\right)^2}$ $\frac{\sigma^2}{\sum_{i=1}^n X_i^2}$

De cualquiera de estas fórmulas se puede ver que una mayor variabilidad de la variable predictora en general conducirá a una estimación más precisa de su coeficiente. Esta es la idea que a menudo se explota en el diseño de experimentos, donde al elegir valores para los predictores (no aleatorios), se trata de hacer el determinante de más grande posible, siendo el determinante una medida de variabilidad. $\left(\mathbf{X}^{T} \mathbf{X} \right)$

JohnK
fuente

2

¿Ayuda la transformación lineal de la variable aleatoria gaussiana? Usando la regla de que si, , entonces . $x \sim \mathcal{N}(\mu,\Sigma)$ $Ax + b ~ \sim \mathcal{N}(A\mu + b,A^T\Sigma A)$

Suponiendo que es el modelo subyacente y . $Y = X\beta + \epsilon$ $\epsilon \sim \mathcal{N}(0, \sigma^2)$

∴ Y \sim N (X β, σ^{2}) X^{T} Y \sim N (X^{T} X β, X σ^{2} X^{T}) (X^{T} X)^{- 1} X^{T} Y \sim N [β, (X^{T} X)^{- 1} σ^{2}]

$\therefore Y \sim \mathcal{N}(X\beta,\sigma^2)\\ X^TY \sim \mathcal{N}(X^TX\beta, X\sigma^2 X^T)\\ (X^TX)^{-1}X^TY \sim \mathcal{N}[\beta,(X^TX)^{-1} \sigma^2]$

Así que es una matriz de escalamiento complicado que transforma la distribución de . $(X^TX)^{-1}X^T$ $Y$

Espero que haya sido útil.

kedarps
fuente

Nada en la derivación del estimador OLS y su varianza requiere la normalidad de los términos de error. Todo lo que se requiere es y . (Por supuesto, se requiere normalidad para mostrar que OLS logra el límite inferior Cramer-Rao, pero eso no es de lo que se trata la publicación del OP, ¿verdad?)

E (ε) = 0

$E(\varepsilon)=0$

E (ε ε^{T}) = σ^{2} I_{n}

$E(\varepsilon\varepsilon^T)=\sigma^2 I_n$

Mico

2

Adoptaré un enfoque diferente para desarrollar la intuición que subyace a la fórmula . Al desarrollar la intuición para el modelo de regresión múltiple, es útil considerar el modelo de regresión lineal bivariado, a saber. , se llama frecuentemente la contribución determinista a , y se llama contribución estocástica. Expresado en términos de desviaciones de las medias de muestra , este modelo también puede escribirse como $\text{Var}\,\hat{\beta}=\sigma^2 (X'X)^{-1}$

y_{i} = α + β x_{i} + ε_{i}, i = 1, \dots, n .

$y_i=\alpha+\beta x_i + \varepsilon_i, \quad i=1,\ldots,n.$

α + β x_{i}

$\alpha+\beta x_i$

y_{i}

$y_i$

ε_{i}

$\varepsilon_i$

(\bar{x}, \bar{y})

$(\bar{x},\bar{y})$

(y_{i} - \bar{y}) = β (x_{i} - \bar{x}) + (ε_{i} - \bar{ε}), i = 1, \dots, n .

$(y_i-\bar{y}) = \beta(x_i-\bar{x})+(\varepsilon_i-\bar{\varepsilon}), \quad i=1,\ldots,n.$

Para ayudar a desarrollar la intuición, asumiremos que se cumplen los supuestos más simples de Gauss-Markov: estocástico, para todos , y para todos . Como ya sabe muy bien, estas condiciones garantizan que donde es la varianza muestral de . En palabras, esta fórmula hace tres afirmaciones: "La varianza de es inversamente proporcional al tamaño de la muestra , es directamente proporcional a la varianza de $x_i$ $\sum_{i=1}^n(x_i-\bar{x})^2>0$ $n$ $\varepsilon_i \sim \text{iid}(0,\sigma^2)$ $i=1,\ldots,n$

Var \hat{β} = \frac{1}{n} σ^{2} (Var x)^{- 1},

$\text{Var}\,\hat{\beta}=\tfrac{1}{n}\sigma^2(\text{Var}\,x)^{-1}\text{,}$

Var x

$\text{Var}\,x$

x

$x$

\hat{β}

$\hat{\beta}$

n

$n$

ε

$\varepsilon$ , y es inversamente proporcional a la varianza de ".

x

$x$

¿Por qué duplicar el tamaño de la muestra, ceteris paribus , hace que la variación de se reduzca a la mitad? Este resultado está íntimamente relacionado con el supuesto iid aplicado a : dado que se supone que los errores individuales son iid, cada observación debe tratarse ex ante como igualmente informativa. Y, duplicando el número de observaciones duplica la cantidad de información sobre los parámetros que describen la relación (supuesta lineal) entre e $\hat{\beta}$ $\varepsilon$ $x$ $y$ . Tener el doble de información reduce la incertidumbre sobre los parámetros a la mitad. Del mismo modo, debería ser sencillo desarrollar la intuición de por qué duplicar también duplica la varianza de . $\sigma^2$ $\hat{\beta}$

Pasemos, entonces, a su pregunta principal, que se trata de desarrollar la intuición para la afirmación de que la varianza de es inversamente proporcional a la varianza de . Para formalizar nociones, consideremos dos modelos de regresión lineal bivariada separados, llamados Modelo y Modelo de ahora en adelante. Asumiremos que ambos modelos satisfacen los supuestos de la forma más simple del teorema de Gauss-Markov y que los modelos comparten exactamente los mismos valores de , , y . Bajo estos supuestos, es fácil demostrar que $\hat{\beta}$ $x$ $(1)$ $(2)$ $\alpha$ $\beta$ $n$ $\sigma^2$ $\text{E}\,\hat{\beta}{}^{(1)}=\text{E}\,\hat{\beta}{}^{(2)}=\beta$ ; en palabras, ambos estimadores son insesgados. Crucialmente, también asumiremos que mientras que , . Sin pérdida de generalidad, supongamos que . ¿Qué estimador de tendrá la varianza más pequeña? Dicho de otra manera, ¿ o estarán más cerca, en promedio , de ? De la discusión anterior, tenemos $\bar{x}^{(1)}=\bar{x}^{(2)}=\bar{x}$ $\text{Var}\,x^{(1)}\ne \text{Var}\,x^{(2)}$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\hat{\beta}$ $\hat{\beta}{}^{(1)}$ $\hat{\beta}{}^{(2)}$ $\beta$ $\text{Var}\,\hat{\beta} {}^{(k)} =\tfrac{1}{n}\sigma^2/\text{Var}\,x{}^{(k)})$ para . Debido a que por suposición, se deduce que . ¿Cuál es, entonces, la intuición detrás de este resultado? $k=1,2$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $\text{Var}\,\hat{\beta}{}^{(1)} <\text{Var}\,\hat{\beta}{}^{(2)}$

Porque por supuesto , en promedio cada estará más lejos de que es el caso, en promedio, para . Denotemos la diferencia absoluta promedio esperada entre y por . La suposición de que implica que . El modelo de regresión lineal bivariado, expresado en desviaciones de las medias, establece que para el Modelo y para el Modelo $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $x_i^{(1)}$ $\bar{x}$ $x_i^{(2)}$ $x_i$ $\bar{x}$ $d_x$ $\text{Var}\,x^{(1)}>\text{Var}\,x^{(2)}$ $d_x^{(1)} >d_x^{(2)}$ $d_y = \beta d_x^{(1)}$ $(1)$ $d_y = \beta d_x^{(2)}$ $(2)$ . Si , esto significa que el componente determinista del Modelo , , tiene una mayor influencia en que el componente determinista del Modelo , . Recuerde que se supone que ambos modelos satisfacen los supuestos de Gauss-Markov, que las varianzas de error son las mismas en ambos modelos y que . Dado que el Modelo imparte más información sobre la contribución del componente determinista de que el Modelo , se deduce que la precisión $\beta\ne0$ $(1)$ $\beta d_x^{(1)}$ $d_y$ $(2)$ $\beta d_x^{(2)}$ $\beta^{(1)}=\beta^{(2)}=\beta$ $(1)$ $y$ $(2)$ con el cual se puede estimar la contribución determinista es mayor para el Modelo que para el Modelo . Lo contrario de una mayor precisión es una varianza menor de la estimación puntual de . $(1)$ $(2)$ $\beta$

Es razonablemente sencillo generalizar la intuición obtenida del estudio del modelo de regresión simple al modelo general de regresión lineal múltiple. La principal complicación es que, en lugar de comparar las variaciones escalares, es necesario comparar el "tamaño" de las matrices de varianza-covarianza. Tener un buen conocimiento práctico de los determinantes, trazas y valores propios de matrices simétricas reales resulta muy útil en este punto :-)

Mico
fuente

1

Digamos que tenemos observaciones (o tamaño de muestra) y parámetros. $n$ $p$

La matriz de covarianza de los parámetros estimados etc. es una representación de la precisión de los parámetros estimados. $\operatorname{Var}(\hat{\beta})$ $\hat{\beta}_1,\hat{\beta}_2$

Si en un mundo ideal los datos pudieran ser perfectamente descritos por el modelo, entonces el ruido será . Ahora, las entradas diagonales de corresponden a etc. La fórmula derivada para la varianza concuerda con la intuición de que si el ruido es más bajo, las estimaciones serán más precisas. $\sigma^2= 0$ $\operatorname{Var}(\hat{\beta})$ $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$

Además, a medida que aumenta el número de mediciones, la varianza de los parámetros estimados disminuirá. Entonces, en general, el valor absoluto de las entradas de será mayor, ya que el número de columnas de es y el número de filas de es , y cada entrada de es una suma de pares de productos El valor absoluto de las entradas de la inversa será menor. $X^TX$ $X^T$ $n$ $X$ $n$ $X^TX$ $n$ $(X^TX)^{-1}$

Por lo tanto, incluso si hay mucho ruido, aún podemos alcanzar buenas estimaciones de los parámetros si aumentamos el tamaño de la muestra . $\hat{\beta_i}$ $n$

Espero que esto ayude.

Referencia: Sección 7.3 sobre Mínimos cuadrados: Cosentino, Carlo y Declan Bates. Control de retroalimentación en biología de sistemas. Crc Press, 2011.

Dilly Minch
fuente

1

Esto se basa en la respuesta de @Alecos Papadopuolos.

Recuerde que el resultado de una regresión de mínimos cuadrados no depende de las unidades de medida de sus variables. Suponga que su variable X es una medida de longitud, dada en pulgadas. Luego, reescalar X, digamos multiplicando por 2.54 para cambiar la unidad a centímetros, no afecta materialmente las cosas. Si vuelve a ajustar el modelo, la nueva estimación de regresión será la estimación anterior dividida por 2.54.

La matriz es la varianza de X y, por lo tanto, refleja la escala de medición de X. Si cambia la escala, debe reflejar esto en su estimación de , y esto se hace multiplicando por el inverso de . $X'X$ $\beta$ $X'X$

Hong Ooi
fuente

Explicación intuitiva del término en la varianza del estimador de mínimos cuadrados

Respuestas: