Conozco los beneficios de la regularización cuando construyo modelos predictivos (sesgo vs. varianza, evitando el sobreajuste). Pero me pregunto si es una buena idea hacer también la regularización (lazo, cresta, red elástica) cuando el propósito principal del modelo de regresión es la inferencia de los coeficientes (ver qué predictores son estadísticamente significativos). Me encantaría escuchar los pensamientos de las personas, así como enlaces a revistas académicas o artículos no académicos que aborden esto.
inference
lasso
ridge-regression
elastic-net
selectiveinference
usuario162381
fuente
fuente
Respuestas:
El término "regularización" cubre una muy amplia variedad de métodos. A los efectos de esta respuesta, voy a limitarme a significar "optimización penalizada", es decir, agregar una penalización o L 2 a su problema de optimización.L1 L2
Si ese es el caso, entonces la respuesta es un definitivo "¡Sí! Bueno, un poco".
La razón de esto es que agregar un o L 2L1 L2 penalización a la función de probabilidad conduce exactamente a la misma función matemática que agregar un Laplace o un Gaussiano antes de la probabilidad de obtener la distribución posterior (tono del elevador: la distribución anterior describe la incertidumbre de parámetros antes de ver los datos, la distribución posterior describe la incertidumbre de los parámetros después de ver los datos), lo que lleva a las estadísticas bayesianas 101. Las estadísticas bayesianas son muy populares y se realizan todo el tiempo con el objetivo de inferir los efectos estimados.
Ese fue el "¡Sí!" parte. El "Bueno" es que la optimización de su distribución posterior se realiza y se llama estimación "Máximo A Posterior" (MAP). Pero la mayoría de los bayesianos no usan la estimación MAP, ¡toman muestras de la distribución posterior usando algoritmos MCMC! Esto tiene varias ventajas, una de las cuales es que tiende a tener un sesgo hacia abajo menor en los componentes de la varianza.
En aras de la brevedad, he tratado de no entrar en detalles sobre las estadísticas bayesianas, pero si esto le interesa, ese es el lugar para comenzar a buscar.
fuente
Hay una gran diferencia entre realizar estimaciones usando penalizaciones de tipo cresta y penalizaciones de tipo lazo. Los estimadores de tipo de cresta tienden a reducir todos los coeficientes de regresión hacia cero y están sesgados, pero tienen una distribución asintótica fácil de derivar porque no reducen ninguna variable a exactamente cero. El sesgo en las estimaciones de cresta puede ser problemático en la realización de pruebas de hipótesis posteriores, pero no soy un experto en eso. Por otro lado, las penalizaciones de tipo lazo / red elástica reducen muchos coeficientes de regresión a cero y, por lo tanto, pueden verse como técnicas de selección de modelo. El problema de realizar inferencia en modelos que se seleccionaron en base a datos generalmente se conoce como el problema de inferencia selectiva o inferencia posterior a la selección. Este campo ha visto muchos desarrollos en los últimos años.
Del mismo modo, el lazo (o red elástica) restringe el espacio muestral de tal manera que se garantiza que se ha seleccionado el modelo seleccionado. Este truncamiento es más complicado, pero puede describirse analíticamente.
Según esta información, se puede realizar una inferencia basada en la distribución truncada de los datos para obtener estadísticas de prueba válidas. Para conocer los intervalos de confianza y las estadísticas de prueba, consulte el trabajo de Lee et al .: http://projecteuclid.org/euclid.aos/1460381681
Sus métodos se implementan en el paquete R selectivo de inferencia .
La estimación óptima (y las pruebas) después de la selección del modelo se discute en (para el lazo): https://arxiv.org/abs/1705.09417
y su paquete de software (mucho menos completo) está disponible en: https://github.com/ammeir2/selectiveMLE
fuente
En particular, recomendaría LASSO si está intentando utilizar la regresión para la inferencia basada en "qué predictores son estadísticamente significativos", pero no por la razón que podría esperar.
En la práctica, los predictores en un modelo tienden a estar correlacionados. Incluso si no hay una multicolinealidad sustancial, la elección de la regresión de predictores "significativos" entre el conjunto de predictores correlacionados puede variar sustancialmente de una muestra a otra.
Entonces sí, adelante y haz LASSO para tu regresión. Luego repita el proceso completo de construcción del modelo (incluida la validación cruzada para elegir la penalización LASSO) en múltiples muestras de arranque (unos pocos cientos) de los datos originales. Vea cuán variable puede ser el conjunto de predictores "significativos" seleccionados de esta manera.
A menos que sus predictores sean altamente ortogonales entre sí, este proceso debería hacerle pensar dos veces antes de interpretar los valores p en una regresión en términos de qué predictores individuales son "significativamente" importantes.
fuente