Usar la regularización al hacer inferencia estadística

17

Conozco los beneficios de la regularización cuando construyo modelos predictivos (sesgo vs. varianza, evitando el sobreajuste). Pero me pregunto si es una buena idea hacer también la regularización (lazo, cresta, red elástica) cuando el propósito principal del modelo de regresión es la inferencia de los coeficientes (ver qué predictores son estadísticamente significativos). Me encantaría escuchar los pensamientos de las personas, así como enlaces a revistas académicas o artículos no académicos que aborden esto.

usuario162381
fuente
44
La regularización se puede ver con ojos bayesianos, el lazo, por ejemplo, corresponde a un doble exponencial previo (con escala elegida por validación cruzada). Entonces, una posibilidad es ir a bayes completos.
kjetil b halvorsen
1
¡determinar de qué predictores son distintos de cero es de lo que se trata el lazo! Si desea determinar cuáles son estadísticamente significativamente distintos de cero, vale la pena considerar métodos como lazo
user795305

Respuestas:

8

El término "regularización" cubre una muy amplia variedad de métodos. A los efectos de esta respuesta, voy a limitarme a significar "optimización penalizada", es decir, agregar una penalización o L 2 a su problema de optimización.L1L2

Si ese es el caso, entonces la respuesta es un definitivo "¡Sí! Bueno, un poco".

La razón de esto es que agregar un o L 2L1L2 penalización a la función de probabilidad conduce exactamente a la misma función matemática que agregar un Laplace o un Gaussiano antes de la probabilidad de obtener la distribución posterior (tono del elevador: la distribución anterior describe la incertidumbre de parámetros antes de ver los datos, la distribución posterior describe la incertidumbre de los parámetros después de ver los datos), lo que lleva a las estadísticas bayesianas 101. Las estadísticas bayesianas son muy populares y se realizan todo el tiempo con el objetivo de inferir los efectos estimados.

Ese fue el "¡Sí!" parte. El "Bueno" es que la optimización de su distribución posterior se realiza y se llama estimación "Máximo A Posterior" (MAP). Pero la mayoría de los bayesianos no usan la estimación MAP, ¡toman muestras de la distribución posterior usando algoritmos MCMC! Esto tiene varias ventajas, una de las cuales es que tiende a tener un sesgo hacia abajo menor en los componentes de la varianza.

En aras de la brevedad, he tratado de no entrar en detalles sobre las estadísticas bayesianas, pero si esto le interesa, ese es el lugar para comenzar a buscar.

Acantilado
fuente
2
(+1) Pero si he usado esos anteriores solo porque dan buenas predicciones, de hecho, es posible que los haya ajustado para ese propósito, entonces, ¿qué debo hacer con las estimaciones de MAP o las distribuciones posteriores? (Por supuesto, si obtuve los antecedentes para representar el conocimiento sobre los parámetros antes de ver los datos, sé exactamente qué hacer con ellos.)
Scortchi - Restablece a Monica
1
@Scortchi: ese es un muy buen punto: el uso de la validación cruzada para elegir penalizaciones lo saca del marco bayesiano clásico (que yo sepa). La construcción de un modelo con CV para elegir los parámetros de regularización no coincidiría con esta respuesta, pero el uso de la regularización con penalizaciones fijas, elegidas en base a información experta, sí lo haría.
Cliff AB
2
Una advertencia: el enfoque anterior + MCMC solo dará resultados válidos si se examinan e informan los posteriores para todos los coeficientes potenciales. De lo contrario, estamos en una configuración de inferencia selectiva y la mayoría de las metodologías de inferencia ingenuas serán inválidas.
user3903581
1
(+1) ¡Buena respuesta! Sin embargo, creo que puede valer la pena aclarar la oración "¡Pero la mayoría de los bayesianos no usan la estimación MAP, toman muestras de la distribución posterior usando algoritmos MCMC!" Parece que estás tratando de decir que la mayoría de los bayesianos usan la parte posterior completa al elegir su estimador. Para ver el problema, tenga en cuenta que se puede hacer una estimación para el MAP a partir de la muestra para la distribución posterior.
user795305
8

Hay una gran diferencia entre realizar estimaciones usando penalizaciones de tipo cresta y penalizaciones de tipo lazo. Los estimadores de tipo de cresta tienden a reducir todos los coeficientes de regresión hacia cero y están sesgados, pero tienen una distribución asintótica fácil de derivar porque no reducen ninguna variable a exactamente cero. El sesgo en las estimaciones de cresta puede ser problemático en la realización de pruebas de hipótesis posteriores, pero no soy un experto en eso. Por otro lado, las penalizaciones de tipo lazo / red elástica reducen muchos coeficientes de regresión a cero y, por lo tanto, pueden verse como técnicas de selección de modelo. El problema de realizar inferencia en modelos que se seleccionaron en base a datos generalmente se conoce como el problema de inferencia selectiva o inferencia posterior a la selección. Este campo ha visto muchos desarrollos en los últimos años.

yN(μ,1)μμ|y|>c>0cyC en valor absoluto y por lo tanto y ya no es normal sino truncado normal.

Del mismo modo, el lazo (o red elástica) restringe el espacio muestral de tal manera que se garantiza que se ha seleccionado el modelo seleccionado. Este truncamiento es más complicado, pero puede describirse analíticamente.

Según esta información, se puede realizar una inferencia basada en la distribución truncada de los datos para obtener estadísticas de prueba válidas. Para conocer los intervalos de confianza y las estadísticas de prueba, consulte el trabajo de Lee et al .: http://projecteuclid.org/euclid.aos/1460381681

Sus métodos se implementan en el paquete R selectivo de inferencia .

La estimación óptima (y las pruebas) después de la selección del modelo se discute en (para el lazo): https://arxiv.org/abs/1705.09417

y su paquete de software (mucho menos completo) está disponible en: https://github.com/ammeir2/selectiveMLE

usuario3903581
fuente
4

En particular, recomendaría LASSO si está intentando utilizar la regresión para la inferencia basada en "qué predictores son estadísticamente significativos", pero no por la razón que podría esperar.

En la práctica, los predictores en un modelo tienden a estar correlacionados. Incluso si no hay una multicolinealidad sustancial, la elección de la regresión de predictores "significativos" entre el conjunto de predictores correlacionados puede variar sustancialmente de una muestra a otra.

Entonces sí, adelante y haz LASSO para tu regresión. Luego repita el proceso completo de construcción del modelo (incluida la validación cruzada para elegir la penalización LASSO) en múltiples muestras de arranque (unos pocos cientos) de los datos originales. Vea cuán variable puede ser el conjunto de predictores "significativos" seleccionados de esta manera.

A menos que sus predictores sean altamente ortogonales entre sí, este proceso debería hacerle pensar dos veces antes de interpretar los valores p en una regresión en términos de qué predictores individuales son "significativamente" importantes.

EdM
fuente
1
+1 Estoy de acuerdo con todo lo escrito, una respuesta muy pragmática, pero ¿por qué no usar una red elástica en lugar de LASSO? (dado que el OP también lo menciona también) La regularización de la cresta controlaría las correlaciones entre predictores un poco más prominentemente.
usεr11852 dice Reinstate Monic
De hecho, es posible calcular valores p válidos, estimaciones e intervalos de confianza en los modelos que se seleccionaron mediante el lazo O la red elástica, solo debe hacerse correctamente.
user3903581
@ user3903581 No cuestiono que uno pueda obtener valores p LASSO frecuentes frecuentes, en el sentido de que una hipótesis nula verdadera resultaría en un coeficiente tan grande menor que, por ejemplo, en el 5% de las muestras replicadas. El problema radica en los intentos demasiado frecuentes de atribuir inferencias causales solo a los predictores que se consideran "significativos" sin considerar los problemas planteados por los predictores correlacionados.
EdM