Justificación para usar pesos geométricos en regresión lineal

En la aplicación práctica, he sido testigo a menudo de la siguiente práctica. Uno observa un par con el tiempo. Bajo el supuesto de que están linealmente relacionados, retrocedemos uno contra el otro utilizando pesos geométricos en lugar de uniformes, es decir, el OLS minimiza para algunos . Esto es muy intuitivo: consideramos menos observaciones en el pasado. En comparación con un esquema de ponderación de "vagón de caja", también tiene la ventaja de producir estimaciones que están cambiando sin problemas con el tiempo, porque las observaciones no caen abruptamente de la ventana de observación. Sin embargo, me pregunto si existe un modelo probabilístico subyacente a la relación entre y $(x_t, y_t)$

\sum_{t = 0}^{\infty} k^{t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^\infty k^{t} (y_{T-t}- a x_{T-t}-b)^2$

k \in (0, 1)

$k\in (0,1)$

x_{t}

$x_t$

y_{t}

$y_t$ que justifica esta elección.

regression least-squares alegre
fuente

Justo el otro día, alguien en algún lugar de uno de los sitios relacionados de StackExchange estaba comentando este esquema como "filtro de Kalman del pobre". Si consigo desenterrar el enlace, lo agregaré aquí.

Dirk Eddelbuettel

Gracias. Me gustaría ver cómo esto se puede reformular como un filtro de Kalman.

alegre

Dudo que haya una derivación formal, de ahí las citas en torno a la versión pobre de los parámetros adaptativos.

Dirk Eddelbuettel

Respuestas:

"Relacionado linealmente" generalmente significa

y_{t} = a x_{t} + b + ε_{t}

$y_t = a x_t + b + \varepsilon_t$

para constante , y IId errores aleatorios , . Una de las razones se podría hacer una estimación OLS ponderado exponencialmente es la sospecha de que y podrían ser ellos mismos (lentamente) que varía con el tiempo, también. Por lo tanto, realmente pensamos que el modelo correcto es $a$ $b$ $\varepsilon_t$ $t=0,1,\ldots,T$ $a$ $b$

y_{t} = α (t) x_{t} + β (t) + ε_{t}

$y_t = \alpha(t) x_t + \beta(t) + \varepsilon_t$

para funciones desconocidas y que varían lentamente (si es que lo hacen) a lo largo del tiempo y estamos interesados en estimar sus valores actuales, y . Supongamos que estas funciones son suaves, por lo que podemos aplicar el teorema de Taylor. Esto afirma que $\alpha(t)$ $\beta(t)$ $a = \alpha_T$ $b = \beta_T$

α (t) = α (T) + α^{'} (t_{α, t}) (t - T)

$\alpha(t) = \alpha(T) + \alpha'(t_{\alpha,t})(t-T)$

para algunos , y de manera similar para . Pensamos en y como los valores más recientes, y , respectivamente. Use esto para volver a expresar los residuos: $t_{\alpha,t}, 0 \le t_{\alpha,t} \lt T$ $\beta(t)$ $a$ $b$ $\alpha_T$ $\beta_T$

y_{t} - (a x_{t} + b) = α^{'} (t_{α, t}) (t - T) x_{t} + β^{'} (t_{β, t}) (t - T) + ε_{t} .

$y_t - (a x_t + b) = \alpha'(t_{\alpha,t})(t-T)x_t + \beta'(t_{\beta,t})(t-T) + \varepsilon_t\text{.}$

Ahora es necesario que se agiten muchas manos. Consideraremos que todo el lado derecho es aleatorio. Su varianza es la de plus veces la varianza de plus veces la varianza de . Esas dos variaciones son completamente desconocidas, pero ( abracadabra ) pensemos en ellas como resultado de algún tipo de proceso (estocástico) en el que los "errores" o "variaciones" sistemáticos (no aleatorios, pero aún desconocidos) se acumulan de una vez a otra. el otro. Esto sugeriría un exponencial $\varepsilon_t$ $x_t^2(t-T)^2$ $\alpha'(t_{\alpha,t})$ $(t-T)^2$ $\beta'(t_{\beta,t})$ cambio en esas variaciones con el tiempo. Ahora simplemente simplifique la expresión explícita (pero esencialmente inútil) para el lado derecho, y absorba los términos cuadráticos en el exponencial (ya que de todos modos estamos agitando nuestras manos tan salvajemente), para obtener $(t-T)^2$

y_{t} - (a x_{t} + b) = δ_{t}

$y_t - (a x_t + b) = \delta_t$

con la varianza de igual a para alguna constante . Ignorar las posibles correlaciones temporales entre y suponer que tienen distribuciones normales da una probabilidad logarítmica para los datos proporcionales a $\delta_t$ $\exp(\kappa(t-T))$ $\kappa$ $\delta_t$

\sum_{t = 0}^{T} k^{- t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^{T} k^{-t} (y_{T-t}- a x_{T-t}-b)^2$

(más una constante irrelevante que depende solo de ) con . Por lo tanto, el procedimiento OLS ponderado exponencialmente maximiza la probabilidad, suponiendo que conocemos el valor de (algo así como un procedimiento de probabilidad de perfil). $k$ $k = \exp{\kappa}$ $k$

Aunque esta derivación completa es claramente fantasiosa, muestra cómo, y aproximadamente en qué medida, la ponderación exponencial intenta hacer frente a posibles cambios en los parámetros lineales a lo largo del tiempo. Relaciona el parámetro con la tasa de cambio temporal de esos parámetros. $k$

whuber
fuente

Estoy de acuerdo con la parte que agita la mano ... Estoy de acuerdo con simplificar los supuestos sobre la forma variable de los parámetros de regresión, siempre y cuando estén claramente establecidos. Por supuesto, siéntase libre de hacer referencia a la literatura existente.

alegre

@whuber: diría que la regresión ponderada exponencialmente es una aproximación muy cruda para el modelo particular que ha descrito . Pero bien podría ser una solución exacta para un modelo diferente. Para el modelo que describa, sería mucho mejor incluir el componente heteroscedástico debido a la variación en (o suponga que no tiene variación, y está tratando con una intercepción aleatoria). Está haciendo que parezca que la ponderación geométrica siempre es subóptima, que no lo es. Depende de su información previa.

α (t)

$\alpha(t)$

probabilistico

@prob Estoy de acuerdo, pero no he podido encontrar un modelo que justifique exactamente este enfoque, así que tuve que conformarme con señalar algunas de las cosas que tal modelo podría implicar. Noté que su respuesta tampoco avanza en esta dirección ;-).

whuber

@whuber: ¿y dónde hago una aproximación en mi ecuación para que no sea exacta?

probabilistico

@probabilidad No proporciona justificación: simplemente anuncia el resultado que ya había publicado. En otras palabras, observa que cuando OLS minimiza tal expresión, realmente está haciendo mínimos cuadrados ponderados. OK, pero ¿no es eso perfectamente obvio? ¿Qué justifica esta elección de pesas? ¿De dónde vienen?

Whuber

Creo que en realidad quieres decir $k^{t}$ como su peso, o eso $k>1$ . Si $0<k<1$ y tomamos $k^{-t}$ como el peso entonces $k^{-\infty}=\infty$ . Así que esto realmente pesa menos la observación actual. Por ejemplo, si tomamos $k=0.5$ entonces $k^{0}=1,\;k^{-1}=2,\;k^{-2}=4,\dots,k^{-20}\approx 10^{6}$ , y así.

Esto solo indica algo que usted sabe sobre cómo cambia la varianza con cada observación (se hace más grande a medida que avanza hacia atrás en el tiempo con el tiempo $T$ ):

(y_{T - t} | x_{T - t}, a, b, k, s) \sim N o r m a l (a x_{T - t} + b, s^{2} k^{- t})

$(y_{T-t}|x_{T-t},a,b,k,s) \sim Normal(ax_{T-t}+b,s^{2}k^{-t})$

Denotando $Y\equiv\{y_{T},y_{T-1},\dots,y_{1}\}$ y $X\equiv\{x_{T},x_{T-1},\dots,x_{1}\}$ Tenemos una probabilidad de registro conjunta de:

\log [p (Y | X, a, b, k, s)] = - \frac{1}{2} (T \log (2 π s^{2} k^{- t}) + \sum_{t = 0}^{T - 1} \frac{(y_{T - t} - a x_{T - t} - b)^{2}}{s^{2} k^{- t}})

$\log\left[p(Y|X,a,b,k,s)\right]=-\frac{1}{2}\left(T\log(2\pi s^{2} k^{-t})+\sum_{t=0}^{T-1}\frac{(y_{T-t}-ax_{T-t}-b)^{2}}{s^{2}k^{-t}}\right)$

Entonces, para obtener las estimaciones de máxima probabilidad de $a$ y $b$ tiene la siguiente función objetivo:

\sum_{t = 0}^{T - 1} k^{t} (y_{T - t} - a x_{T - t} - b)^{2}

$\sum_{t=0}^{T-1}k^{t}(y_{T-t}-ax_{T-t}-b)^{2}$

Cual es el que buscas

probabilidadislogica
fuente