Aprender conceptos estadísticos a través de ejercicios de análisis de datos.

18

Encuentro que los ejercicios simples de análisis de datos a menudo pueden ayudar a ilustrar y aclarar conceptos estadísticos. ¿Qué ejercicios de análisis de datos utiliza para enseñar conceptos estadísticos?

Brett Magill
fuente

Respuestas:

9

Como tengo que explicar los métodos de selección de variables con bastante frecuencia, no en un contexto de enseñanza, sino para los no estadísticos que solicitan ayuda con su investigación, me encanta este ejemplo extremadamente simple que ilustra por qué la selección de una sola variable no es necesariamente una buena idea.

Si tiene este conjunto de datos:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

No toma mucho tiempo darse cuenta de que tanto X1 como X2 individualmente no son completamente informativos para y (cuando son iguales, y es 'seguro' que sea 1 - Estoy ignorando los problemas de tamaño de la muestra aquí, solo asuma estas cuatro observaciones para ser todo el universo) Sin embargo, la combinación de las dos variables es completamente informativa. Como tal, es más fácil para las personas entender por qué no es una buena idea (por ejemplo) verificar solo el valor p para modelos con cada variable individual como regresor.

En mi experiencia, esto realmente transmite el mensaje.

Nick Sabbe
fuente
5

Coeficientes de regresión múltiple y la falacia de signos esperados

Una de mis ilustraciones favoritas de un concepto estadístico a través de un ejercicio de análisis de datos es la deconstrucción de una regresión múltiple en regresiones bivariadas múltiples.

Objetivos

  • Aclarar el significado de los coeficientes de regresión en presencia de múltiples predictores.
  • Para ilustrar por qué es incorrecto "esperar" que un coeficiente de regresión múltiple tenga un signo particular basado en su relación bivariada con Y cuando los predictores están correlacionados.

Concepto

Los coeficientes de regresión en un modelo de regresión múltiple representan la relación entre a) la parte de una variable predictiva dada (x1) que no está relacionada con todas las otras variables predictoras (x2 ... xN) en el modelo; y 2) la parte de la variable de respuesta (Y) que no está relacionada con todas las otras variables predictoras (x2 ... xN) en el modelo. Cuando existe una correlación entre los predictores, los signos asociados con los coeficientes predictores representan las relaciones entre esos residuos.

Ejercicio

  1. Genere algunos datos aleatorios para dos predictores (x1, x2) y una respuesta (y).
  2. Regrese y en x2 y almacene los residuos.
  3. Regrese x1 en x2 y almacene los residuos.
  4. Regrese los residuos del paso 2 (r1) en los residuos del paso 3 (r2).

El coeficiente para el paso 4 para r2 será el coeficiente de x1 para el modelo de regresión múltiple con x1 y x2. Podrías hacer lo mismo para x2 dividiendo x1 tanto para y como para x2.

Aquí hay un código R para este ejercicio.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Aquí están los resultados y resultados relevantes.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
Brett Magill
fuente