Simulación de regresión lineal múltiple

14

Soy nuevo en el lenguaje R. Me gustaría saber cómo simular a partir de un modelo de regresión lineal múltiple que cumpla con los cuatro supuestos de la regresión.

Ok, gracias.

Digamos que quiero simular los datos basados en este conjunto de datos:

y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67)
x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500)
x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2)

fit<-lm(y~x1+x2)
summary(fit)

entonces obtengo la salida:

Call:
lm(formula = y ~ x1 + x2)

Residuals:
     Min       1Q   Median       3Q      Max 
-13.2805  -7.5169  -0.9231   7.2556  12.8209 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 42.85352   11.33229   3.782  0.00149 **
x1          -0.02534    0.01293  -1.960  0.06662 . 
x2           0.33188    2.41657   0.137  0.89238   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 8.679 on 17 degrees of freedom
Multiple R-squared:  0.1869,    Adjusted R-squared:  0.09127 
F-statistic: 1.954 on 2 and 17 DF,  p-value: 0.1722

Mi pregunta es cómo simular una nueva información que imite la información original anterior.

r multiple-regression simulation Ni Hisham Haron
fuente

28

Si aún no los tiene, comience configurando algunos predictores, , , ... $x_1$ $x_2$
Elija los coeficientes de población ('verdadero') de sus predictores, los 's, incluido , la intercepción. $\beta_i$ $\beta_0$
Elija la varianza de error, o equivalentemente su raíz cuadrada, $\sigma^2$ $\sigma$
generar el término de error, , como un vector normal aleatorio independiente, con media 0 y varianza $\varepsilon$ $\sigma^2$
Deje $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k + \varepsilon$

a continuación, puede regresar al en sus s' $y$ $x$

Por ejemplo, en R podrías hacer algo como:

x1 <- 11:30
x2 <- runif(20,5,95)
x3 <- rbinom(20,1,.5)

b0 <- 17
b1 <- 0.5
b2 <- 0.037
b3 <- -5.2
sigma <- 1.4

eps <- rnorm(x1,0,sigma)
y <- b0 + b1*x1  + b2*x2  + b3*x3 + eps

produce una sola simulación de del modelo. Entonces corriendo $y$

 summary(lm(y~x1+x2+x3))

da

Call:
lm(formula = y ~ x1 + x2 + x3)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.6967 -0.4970  0.1152  0.7536  1.6511 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 16.28141    1.32102  12.325 1.40e-09 ***
x1           0.55939    0.04850  11.533 3.65e-09 ***
x2           0.01715    0.01578   1.087    0.293    
x3          -4.91783    0.66547  -7.390 1.53e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.241 on 16 degrees of freedom
Multiple R-squared:  0.9343,    Adjusted R-squared:  0.9219 
F-statistic: 75.79 on 3 and 16 DF,  p-value: 1.131e-09

Puede simplificar este procedimiento de varias maneras, pero pensé que deletrearlo ayudaría a comenzar.

Si desea simular una nueva aleatoria pero con los mismos coeficientes de población, simplemente vuelva a ejecutar las dos últimas líneas del procedimiento anterior (genere una nueva aleatoria y ), correspondiente a los pasos 3 y 4 del algoritmo. $y$ epsy

Glen_b -Reinstate a Monica
fuente

¿Es posible cambiar el error estándar de las estimaciones? Utilicé un script ligeramente modificado (en rnorm()lugar de 11:30), pero no importa cuánto aumente el error (sigma), los errores estándar de la estimación son más o menos similares.

Daniel

2

Aquí hay otro código para generar regresión lineal múltiple con errores que siguen la distribución normal:

sim.regression<-function(n.obs=10,coefficients=runif(10,-5,5),s.deviation=.1){

  n.var=length(coefficients)  
  M=matrix(0,ncol=n.var,nrow=n.obs)

  beta=as.matrix(coefficients)

  for (i in 1:n.var){
    M[,i]=rnorm(n.obs,0,1)
  }

  y=M %*% beta + rnorm(n.obs,0,s.deviation)

  return (list(x=M,y=y,coeff=coefficients))

}

TPArrow
fuente

Simulación de regresión lineal múltiple

Respuestas: