Supongamos que deseo retroceder contra una X normalizada , pero me gustaría una solución escasa. Después de la regresión, ¿por qué no se permite descartar los coeficientes de menor magnitud?
Para el registro, he oído hablar de los métodos LARS y LASSO, y a menudo los uso. Tengo curiosidad por saber por qué el enfoque anterior no es aplicable.
regression
regression-coefficients
Cam.Davidson.Pilon
fuente
fuente
Respuestas:
No habría problema si fuera ortonormal. Sin embargo, la posibilidad de una fuerte correlación entre las variables explicativas debería darnos una pausa.X
Cuando considera la interpretación geométrica de la regresión de mínimos cuadrados , los contraejemplos son fáciles de encontrar. Tome para tener, digamos, coeficientes distribuidos casi normalmente y X 2 para ser casi paralelo a él. Deje que X 3 sea ortogonal al plano generado por X 1 y X 2 . Podemos imaginar una Y que está principalmente en la dirección X 3 , pero que está desplazada una cantidad relativamente pequeña desde el origen en el plano X 1 , X 2 . Porque X 1 yX1 X2 X3 X1 X2 Y X3 X1,X2 X1 son casi paralelos, sus componentes en ese plano pueden tener coeficientes grandes, lo que nos hace caer X 3 , lo que sería un gran error.X2 X3
La geometría se puede recrear con una simulación, como se lleva a cabo mediante estos
R
cálculos:Las variaciones de son lo suficientemente cercanas a 1 como para poder inspeccionar los coeficientes de los ajustes como indicadores de los coeficientes estandarizados. En el modelo completo, los coeficientes son 0.99, -0.99 y 0.1 (todos muy significativos), con el más pequeño (con mucho) asociado con X 3 , por diseño. El error estándar residual es 0.00498. En el modelo reducido ("disperso"), el error estándar residual, en 0.09803, es 20 veces mayor: un gran aumento, que refleja la pérdida de casi toda la información sobre Y al caer la variable con el coeficiente estandarizado más pequeño. El R 2 se ha reducido de 0,9975Xi 1 X3 20 Y R2 0.9975 casi a cero Ninguno de los coeficientes es significativo en un nivel mejor que .0.38
La matriz de diagrama de dispersión revela todo:
La fuerte correlación entre e y es clara a partir de las alineaciones lineales de puntos en la esquina inferior derecha. La pobre correlación entre x 1 e y y x 2 e y es igualmente clara por la dispersión circular en los otros paneles. Sin embargo, el coeficiente estandarizado más pequeño pertenece a x 3 en lugar de a x 1 o x 2 .x3 y x1 y x2 y x3 x1 x2
fuente
Me parece que si un coeficiente estimado está cerca de 0 y los datos se normalizan, la predicción no se vería afectada al descartar la variable. Ciertamente, si el coeficiente no fuera estadísticamente significativo, no parecería haber ningún problema. Pero esto debe hacerse con cuidado. Los IV pueden estar correlacionados y eliminar uno podría cambiar los coeficientes de los demás. Esto se vuelve más peligroso si comienza a cambiar varias variables de esta manera. Los procedimientos de selección de subconjuntos están diseñados para evitar tales problemas y utilizar criterios razonables para incluir y excluir variables. Si le preguntas a Frank Harrell, él estaría en contra de los procedimientos por pasos. Menciona LARS y LASSO, que son dos métodos muy modernos. Pero hay muchos otros, incluidos los criterios de información que facilitan la introducción de demasiadas variables.
Si intenta un procedimiento de selección de subconjuntos que ha sido cuidadosamente estudiado con mucha literatura al respecto, probablemente encontrará que dará lugar a una solución que revierta las variables con coeficientes pequeños, especialmente si no pasan la prueba por ser estadísticamente significativamente diferentes de 0.
fuente