Sparsity descartando el coeficiente de mínimos cuadrados

14

Supongamos que deseo retroceder contra una X normalizada , pero me gustaría una solución escasa. Después de la regresión, ¿por qué no se permite descartar los coeficientes de menor magnitud?YX

Para el registro, he oído hablar de los métodos LARS y LASSO, y a menudo los uso. Tengo curiosidad por saber por qué el enfoque anterior no es aplicable.

Cam.Davidson.Pilon
fuente
2
+1 Estas preguntas simples pueden ser difíciles: hacen que uno piense mucho sobre los conceptos básicos.
whuber

Respuestas:

14

No habría problema si fuera ortonormal. Sin embargo, la posibilidad de una fuerte correlación entre las variables explicativas debería darnos una pausa.X

Cuando considera la interpretación geométrica de la regresión de mínimos cuadrados , los contraejemplos son fáciles de encontrar. Tome para tener, digamos, coeficientes distribuidos casi normalmente y X 2 para ser casi paralelo a él. Deje que X 3 sea ​​ortogonal al plano generado por X 1 y X 2 . Podemos imaginar una Y que está principalmente en la dirección X 3 , pero que está desplazada una cantidad relativamente pequeña desde el origen en el plano X 1 , X 2 . Porque X 1 yX1X2X3X1X2YX3X1,X2X1 son casi paralelos, sus componentes en ese plano pueden tener coeficientes grandes, lo que nos hace caer X 3 , lo que sería un gran error.X2X3

La geometría se puede recrear con una simulación, como se lleva a cabo mediante estos Rcálculos:

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

Las variaciones de son lo suficientemente cercanas a 1 como para poder inspeccionar los coeficientes de los ajustes como indicadores de los coeficientes estandarizados. En el modelo completo, los coeficientes son 0.99, -0.99 y 0.1 (todos muy significativos), con el más pequeño (con mucho) asociado con X 3 , por diseño. El error estándar residual es 0.00498. En el modelo reducido ("disperso"), el error estándar residual, en 0.09803, es 20 veces mayor: un gran aumento, que refleja la pérdida de casi toda la información sobre Y al caer la variable con el coeficiente estandarizado más pequeño. El R 2 se ha reducido de 0,9975Xi1X320YR20.9975casi a cero Ninguno de los coeficientes es significativo en un nivel mejor que .0.38

La matriz de diagrama de dispersión revela todo:

Diagrama de dispersión matriz de x1, x2, x3 e y

La fuerte correlación entre e y es clara a partir de las alineaciones lineales de puntos en la esquina inferior derecha. La pobre correlación entre x 1 e y y x 2 e y es igualmente clara por la dispersión circular en los otros paneles. Sin embargo, el coeficiente estandarizado más pequeño pertenece a x 3 en lugar de a x 1 o x 2 .x3yx1yx2yx3x1x2

whuber
fuente
2

Me parece que si un coeficiente estimado está cerca de 0 y los datos se normalizan, la predicción no se vería afectada al descartar la variable. Ciertamente, si el coeficiente no fuera estadísticamente significativo, no parecería haber ningún problema. Pero esto debe hacerse con cuidado. Los IV pueden estar correlacionados y eliminar uno podría cambiar los coeficientes de los demás. Esto se vuelve más peligroso si comienza a cambiar varias variables de esta manera. Los procedimientos de selección de subconjuntos están diseñados para evitar tales problemas y utilizar criterios razonables para incluir y excluir variables. Si le preguntas a Frank Harrell, él estaría en contra de los procedimientos por pasos. Menciona LARS y LASSO, que son dos métodos muy modernos. Pero hay muchos otros, incluidos los criterios de información que facilitan la introducción de demasiadas variables.

Si intenta un procedimiento de selección de subconjuntos que ha sido cuidadosamente estudiado con mucha literatura al respecto, probablemente encontrará que dará lugar a una solución que revierta las variables con coeficientes pequeños, especialmente si no pasan la prueba por ser estadísticamente significativamente diferentes de 0.

Michael R. Chernick
fuente