Si repito cada observación de muestra en un modelo de regresión lineal y vuelvo a ejecutar la regresión, ¿cómo se vería afectado el resultado?

15

Digamos que tengo N observaciones, posiblemente múltiples factores y repito cada observación dos veces (o M veces) ¿cómo se compararía una regresión en este nuevo conjunto de tamaños NM con una regresión solo en las observaciones originales?

Palacio Chan
fuente

Respuestas:

13

Conceptualmente, no está agregando información "nueva", pero "conoce" esa información con mayor precisión.

Por lo tanto, esto daría como resultado los mismos coeficientes de regresión, con errores estándar más pequeños.

Por ejemplo, en Stata, la función expandir x duplica cada observación x veces.

sysuse auto, clear
regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515    .001586    -2.43   0.018    -.0070138   -.0006891
      length |  -.0795935   .0553577    -1.44   0.155    -.1899736    .0307867
       _cons |   47.88487    6.08787     7.87   0.000       35.746    60.02374
------------------------------------------------------------------------------

expand 5

regress mpg weight length
------------------------------------------------------------------------------
         mpg |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      weight |  -.0038515   .0006976    -5.52   0.000    -.0052232   -.0024797
      length |  -.0795935   .0243486    -3.27   0.001    -.1274738   -.0317131
       _cons |   47.88487   2.677698    17.88   0.000     42.61932    53.15043
------------------------------------------------------------------------------

Como puede ver, los coeficientes (longitud) anteriormente insignificantes se vuelven estadísticamente significativos en el modelo expandido, lo que representa la precisión con la que "sabe" lo que sabe.

pmgjones
fuente
Sí, los errores estándar se reducen. Algunos recomiendan una regresión lineal ponderada para esto. ¿Hay algún método que use para arreglar esto?
BBDynSys
3

w=argminwEl |El |Xw-yEl |El |2
XyMETROMETRO
Innuo
fuente
De acuerdo, pero creo que las estadísticas t y los errores estándar deberían cambiar dado el cambio de N a NM.
Palacio Chan
METROnorte-PAGnorte es el tamaño de muestra original y PAG es el número de predictores) y la longitud del vector residual aumenta en un factor de METRO.
Innuo