Si repito cada observación de muestra en un modelo de regresión lineal y vuelvo a ejecutar la regresión, ¿cómo se vería afectado el resultado?

Digamos que tengo N observaciones, posiblemente múltiples factores y repito cada observación dos veces (o M veces) ¿cómo se compararía una regresión en este nuevo conjunto de tamaños NM con una regresión solo en las observaciones originales?

regression linear-model multiple-regression Palacio Chan
fuente

Respuestas:

Conceptualmente, no está agregando información "nueva", pero "conoce" esa información con mayor precisión.

Por lo tanto, esto daría como resultado los mismos coeficientes de regresión, con errores estándar más pequeños.

Por ejemplo, en Stata, la función expandir x duplica cada observación x veces.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Como puede ver, los coeficientes (longitud) anteriormente insignificantes se vuelven estadísticamente significativos en el modelo expandido, lo que representa la precisión con la que "sabe" lo que sabe.

pmgjones
fuente

Sí, los errores estándar se reducen. Algunos recomiendan una regresión lineal ponderada para esto. ¿Hay algún método que use para arreglar esto?

BBDynSys

w^{*} = {argmin}_{w} El | El | X w - y El | {El |}^{2}

$w^* = \mbox{argmin}_w ||Xw - y||^2$

X

$X$

y

$y$

M

$M$

M

$M$

Innuo
fuente

De acuerdo, pero creo que las estadísticas t y los errores estándar deberían cambiar dado el cambio de N a NM.

Palacio Chan

M * N - P

$M*N - P$

N

$N$ es el tamaño de muestra original y

P

$P$ es el número de predictores) y la longitud del vector residual aumenta en un factor de

M

$M$ .

Innuo