Diferencia entre promediar datos luego ajustar y ajustar los datos luego promediar

Si corresponde, entre ajustar una línea a múltiples "experimentos" separados y luego promediar los ajustes, o promediar los datos de los experimentos separados y luego ajustar los datos promediados. Déjame elaborar:

Realizo simulaciones por computadora que generan una curva, que se muestra a continuación. Extraemos una cantidad, llamémosla "A" ajustando la región lineal de la gráfica (tiempos largos). El valor es simplemente la pendiente de la región lineal. Por supuesto, hay un error asociado con esta regresión lineal.

Por lo general, ejecutamos más o menos 100 de estas simulaciones con diferentes condiciones iniciales para calcular un valor promedio de "A". Me han dicho que es mejor promediar los datos sin procesar (de la gráfica a continuación) en grupos de digamos 10, luego ajustarlos para "A" y promediar esos 10 "A" juntos.

No tengo intuición sobre si hay algún mérito en eso o si es mejor que ajustar 100 valores "A" individuales y promediarlos.

error fitting average pragmatista1
fuente

No estoy seguro de entenderlo: ¿mide A en diferentes momentos y luego estima ? ¿Entonces haces esto varias veces y tomas el promedio de todos ?

A = β_{0} + β_{1} t

$A= \beta_0 +\beta_1 t$

β_{1}

$\beta_1$

Lo siento, no. La gráfica anterior es el resultado de una sola simulación (llamémosla un experimento). La región no lineal inicial se descarta, luego ajustamos una línea a la porción lineal y obtenemos la pendiente, "A". Entonces, una simulación completa produce una sola estimación de "A". Por supuesto, mi pregunta gira en torno a si promediar muchas parcelas y luego calcular A es diferente de simplemente calcular A para un montón de parcelas y promediarlas. Espero que eso aclare.

pragmatista1

No veo por qué esto haría una diferencia. (si se cumplen los supuestos para la regresión lineal)

Supongo que el ajuste nunca sale mal / no converge / da estimaciones ridículamente empinadas debido a que los experimentos son pequeños. Eso sería algo que combinar primero (o modelos jerárquicos) podría ayudar.

Björn

También podría ajustar todos los datos juntos, pero incluir algún tipo de componente para diferenciar entre experimentos (diferentes intercepciones para cada experimento, o incluso diferentes pendientes), algo así como un enfoque de modelo mixto lineal. De esta manera, puede aproximar una pendiente general, pero podría identificar cualquier efecto "por lotes" o diferencias entre los experimentos

bdeonovic

Respuestas:

Imagine que estamos en un contexto de datos de panel donde hay variaciones a lo largo del tiempo entre las empresas . Piense en cada período de tiempo como un experimento separado. Entiendo su pregunta como si es equivalente estimar un efecto usando: $t$ $i$ $t$

Variación transversal en promedios de series de tiempo.
Promedios de series temporales de variación transversal.

La respuesta en general es no.

La puesta en marcha:

En mi formulación, podemos pensar en cada período de tiempo como un experimento separado. $t$

Supongamos que tiene un panel equilibrado de longitud sobre empresas. Si cada período de tiempo etc ... podemos escribir los datos generales como: $T$ $n$ $(X_t, \mathbf{y}_t)$

Y = [\begin{matrix} y_{1} \\ y_{2} \\ \dots \\ y_{n} \end{matrix}] X = [\begin{matrix} X_{1} \\ X_{2} \\ \dots \\ X_{n} \end{matrix}]

$Y = \begin{bmatrix} \mathbf{y}_1 \\ \mathbf{y}_2 \\ \ldots \\ \mathbf{y}_n \end{bmatrix} \quad \quad X = \begin{bmatrix} X_1 \\ X_2 \\ \ldots \\ X_n \end{bmatrix}$

Promedio de ajustes:

\begin{aligned} \frac{1}{T} \sum_{t} b_{t} & = \frac{1}{T} \sum_{t} {(X_{t}^{'} X_{t})}^{- 1} X_{t}^{'} y_{t} \\ = \frac{1}{T} \sum_{t} S_{t}^{- 1} (\frac{1}{n} \sum_{i} x_{t, i} y_{t, i}) where S_{t} = \frac{1}{n} \sum_{i} x_{t, i} x_{t, i}^{'} \end{aligned}

$\begin{align*} \frac{1}{T} \sum_t \mathbf{b}_t &= \frac{1}{T} \sum_t \left(X_t'X_t \right)^{-1} X_t' \mathbf{y}_t \\ &= \frac{1}{T} \sum_t S^{-1}_t \left( \frac{1}{n} \sum_i \mathbf{x}_{t,i} y_{t,i}\right) \quad \text{where } S_t = \frac{1}{n} \sum_i \mathbf{x}_{t,i} \mathbf{x}_{t,i}' \end{align*}$

Ajuste de promedios:

En general, esto no es igual a la estimación basada en la variación transversal de los promedios de series de tiempo (es decir, entre el estimador).

{(\frac{1}{n} \sum_{i} {\bar{x}}_{i} {\bar{x}}_{i}^{'})}^{- 1} \frac{1}{n} \sum_{i} {\bar{x}}_{i} {\bar{y}}_{i}

$\left( \frac{1}{n} \sum_i \bar{\mathbf{x}}_i \bar{\mathbf{x}}_i' \right)^{-1} \frac{1}{n} \sum_i \bar{\mathbf{x}}_i \bar{y}_i$

Donde etc. $\bar{\mathbf{x}}_i = \frac{1}{T} \sum_t \mathbf{x}_{t, i}$

Estimación de OLS agrupada:

Algo que quizás sea útil pensar es la estimación agrupada de MCO. ¿Qué es? Luego use

\begin{aligned} \hat{b} & = {(X^{'} X)}^{- 1} X^{'} Y \\ = {(\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t})}^{- 1} (\frac{1}{n T} \sum_{t} X_{t}^{'} y_{i}) \end{aligned}

$\begin{align*} \hat{\mathbf{b}} &= \left(X'X\right)^{-1}X'Y \\ &= \left( \frac{1}{nT} \sum_t X_t'X_t \right)^{-1} \left( \frac{1}{nT} \sum_t X_t' \mathbf{y}_i \right) \end{align*}$

b_{t} = {(X_{t}^{'} X_{t})}^{- 1} X_{t}^{'} y_{i}

$\mathbf{b}_t = \left(X_t'X_t \right)^{-1}X_t' \mathbf{y}_i$

\begin{aligned} = {(\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t})}^{- 1} (\frac{1}{n T} \sum_{t} X_{t}^{'} X_{t} b_{t}) \end{aligned}

$\begin{align*} &= \left( \frac{1}{nT} \sum_t X_t'X_t \right)^{-1} \left( \frac{1}{nT} \sum_t X_t'X_t \mathbf{b}_t \right) \end{align*}$

Vamos a y ser nuestras estimaciones de sobre la muestra completa y en el período respectivamente. Entonces nosotros tenemos: $S = \frac{1}{nT} \sum_i X'X$ $S_t = \frac{1}{n} X_t'X_t$ $\operatorname{E}[\mathbf{x}\mathbf{x}']$ $t$

\begin{aligned} \hat{b} & = \frac{1}{T} \sum_{t} (S^{- 1} S_{t}) b_{t} \end{aligned}

$\begin{align*} \hat{\mathbf{b}} &= \frac{1}{T} \sum_t \left( S^{-1} S_t \right) \mathbf{b}_t \end{align*}$

Esto es algo así como un promedio de las estimaciones específicas de tiempo diferentes , pero es un poco diferente. En cierto sentido, estás dando más peso a los períodos con mayor varianza de las variables del lado derecho. $\mathbf{b}_t$

Caso especial: las variables del lado derecho son invariables en el tiempo y específicas de la empresa

Si las variables del lado derecho para cada empresa son constantes a lo largo del tiempo (es decir, para cualquier y ) entonces para todo y tendríamos: $i$ $X_{t_1} = X_{t_2}$ $t_1$ $t_2$ $S = S_t$ $t$

\hat{b} = \frac{1}{T} \sum_{t} b_{t}

$\hat{\mathbf{b}} = \frac{1}{T} \sum_t \mathbf{b}_t$

Comentario divertido:

Este es el caso de Fama y Macbeth cuando aplicaron esta técnica de promediar estimaciones transversales para obtener errores estándar consistentes al estimar cómo los rendimientos esperados varían con la covarianza de las empresas con el mercado (u otras cargas de factores).

El procedimiento Fama-Macbeth es una forma intuitiva de obtener errores estándar consistentes en el contexto del panel cuando los términos de error están correlacionados de forma transversal pero son independientes en el tiempo. Una técnica más moderna que produce resultados similares es la agrupación a tiempo.

Matthew Gunn
fuente

(Nota: no tengo suficiente reputación para comentar, así que publico esto como respuesta).

Para la pregunta particular planteada, la respuesta de fcop es correcta: ajustar el promedio es lo mismo que promediar los ajustes (al menos para mínimos cuadrados lineales). Sin embargo, vale la pena mencionar que cualquiera de estos enfoques ingenuos "en línea " puede dar resultados sesgados, en comparación con el ajuste de todos los datos a la vez. Como los dos son equivalentes, me enfocaré en el enfoque de "ajustarse al promedio". Esencialmente, el ajuste de las curvas promediadas ignora la incertidumbre relativa en los valores entre los diferentes puntos . Por ejemplo, si , e , entonces $\bar{y}[x]=\langle y[x]\rangle$ $y$ $x$ $y_1[x_1]=y_2[x_1]=2$ $y_1[x_2]=1$ $y_1[x_2]=3$ $\bar{y}[x_1]=\bar{y}[x_2]=2$ , pero cualquier ajuste de curva debería preocuparse mucho más por el desajuste en comparación con . $x_1$ $x_2$

Tenga en cuenta que la mayoría de las plataformas de software científicas deberían tener herramientas para calcular / actualizar un verdadero ajuste de mínimos cuadrados "en línea" (conocido como mínimos cuadrados recursivos ). Por lo tanto, se pueden usar todos los datos (si esto es deseable).

GeoMatt22
fuente

La respuesta publicada por fcop fue eliminada. Es posible que desee modificar su respuesta ligeramente

Glen_b -Reinstate Monica