Intuición por los grados de libertad del LASSO

Zou y col. "Sobre los" grados de libertad "del lazo" (2007) muestran que el número de coeficientes distintos de cero es una estimación imparcial y consistente de los grados de libertad del lazo.

Me parece un poco contradictorio.

Supongamos que tenemos un modelo de regresión (donde las variables son media cero)

y = β x + ε .

$y=\beta x + \varepsilon.$

Suponga que una estimación OLS sin restricciones de es . Podría coincidir aproximadamente con una estimación LASSO de para una intensidad de penalización muy baja. $\beta$ $\hat\beta_{OLS}=0.5$ $\beta$
Supongamos además que una estimación LASSO para una intensidad de penalización particular es . Por ejemplo, podría ser la "óptima" para el conjunto de datos en cuestión que se encuentra utilizando la validación cruzada. $\lambda^*$ $\hat\beta_{LASSO,\lambda^*}=0.4$ $\lambda^*$ $\lambda$
Si entiendo correctamente, en ambos casos los grados de libertad son 1, ya que ambas veces hay un coeficiente de regresión distinto de cero.

Pregunta:

¿Cómo es que los grados de libertad en ambos casos son los mismos aunque sugiere menos "libertad" en la adaptación que ? $\hat\beta_{LASSO,\lambda^*}=0.4$ $\hat\beta_{OLS}=0.5$

Referencias

Zou, Hui, Trevor Hastie y Robert Tibshirani. "Sobre los" grados de libertad "del lazo". The Annals of Statistics 35.5 (2007): 2173-2192.

regression lasso degrees-of-freedom shrinkage Richard Hardy
fuente

gran pregunta, ¡eso merecería más atención!

Matifou

Suponga que se nos da un conjunto de -dimensionales observaciones, , . Asuma un modelo de la forma: where , , y denotando el producto interno. Sea una estimación de usando el método de ajuste (ya sea OLS o LASSO para nuestros propósitos). La fórmula para los grados de libertad dada en el artículo (ecuación 1.2) es: $n$ $p$ $x_i \in \mathbb{R}^p$ $i = 1, \dotsc, n$

\begin{aligned} Y_{i} = ⟨ β, x_{i} ⟩ + ϵ \end{aligned}

$\begin{align} Y_i = \langle \beta, x_i\rangle + \epsilon \end{align}$

ϵ \sim N (0, σ^{2})

$\epsilon \sim N(0, \sigma^2)$

β \in R^{p}

$\beta \in \mathbb{R}^p$

⟨ \cdot, \cdot ⟩

$\langle \cdot, \cdot \rangle$

\hat{β} = δ ({Y_{i}}_{i = 1}^{n})

$\hat{\beta} = \delta(\{Y_i\}_{i=1}^n)$

β

$\beta$

δ

$\delta$

\begin{aligned} df (\hat{β}) = \sum_{i = 1}^{n} \frac{Cov (⟨ \hat{β}, x_{i} ⟩, Y_{i})}{σ^{2}} . \end{aligned}

$\begin{align} \text{df}(\hat{\beta}) = \sum_{i=1}^n \frac{\text{Cov}(\langle\hat{\beta}, x_i\rangle, Y_i)}{\sigma^2}. \end{align}$

Al inspeccionar esta fórmula, podemos suponer que, de acuerdo con su intuición, el verdadero DOF para el LASSO será de hecho menor que el verdadero DOF de OLS; El coeficiente de contracción efectuado por el LASSO debería tender a disminuir las covarianzas.

Ahora, para responder a su pregunta, la razón por la cual el DOF para el LASSO es el mismo que el DOF para el OLS en su ejemplo es simplemente que allí está tratando con estimaciones (aunque no sesgadas), obtenidas de un conjunto de datos particular muestreado del modelo , de los verdaderos valores DOF. Para cualquier conjunto de datos en particular, dicha estimación no será igual al valor verdadero (especialmente porque se requiere que la estimación sea un número entero mientras que el valor verdadero es un número real en general).

Sin embargo, cuando tales estimaciones se promedian en muchos conjuntos de datos muestreados del modelo, por imparcialidad y la ley de grandes números, tal promedio convergerá al verdadero DOF. En el caso del LASSO, algunos de esos conjuntos de datos darán como resultado un estimador en el que el coeficiente es en realidad 0 (aunque dichos conjuntos de datos podrían ser raros si es pequeño). En el caso de OLS, la estimación del DOF es siempre el número de coeficientes, no el número de coeficientes distintos de cero, por lo que el promedio para el caso de OLS no contendrá estos ceros. Esto muestra cómo difieren los estimadores y cómo el estimador promedio del LASSO DOF puede converger en algo más pequeño que el estimador promedio del OLS DOF. $\lambda$

e2crawfo
fuente

Gracias por corregir mis errores y formulaciones imprecisas. Déjame ver si te entendí bien. Esencialmente, si tuviéramos que repetir el experimento muchas veces (o muestrear muchas veces de la misma población), ocasionalmente obtendríamos (el coeficiente se reduciría a cero) y en promedio (a través de los experimentos) Obtendría DoF para LASSO mientras que DoF para OLS (obviamente).

{\hat{β}}_{L A S S O} = 0

$\hat\beta_{LASSO}=0$

< 1

$<1$

= 1

$=1$

Richard Hardy

Por cierto, ¿por qué la estimación de los grados de libertad debe ser entera? ¿De verdad? Permítanme también comentar que la notación interna del producto parece innecesariamente complicada y rara vez se usa en este sitio; la notación matricial sería suficiente. Pero es tu elección, por supuesto.

Richard Hardy

Sí, eso lo resume todo. La estimación de los grados de libertad tiene que ser un número entero para LASSO (al menos para un único conjunto de datos) solo porque la estimación es el número de coeficientes distintos de cero.

e2crawfo

La declaración La estimación de los grados de libertad tiene que ser un número entero para LASSO solo porque la estimación es el número de coeficientes distintos de cero me parece muy tautológica. En general, no creo que el df deba ser entero, desde la definición misma del df que escribió. Del mismo modo, en el caso de la cresta, no es necesariamente cero.

Matifou

Intuición por los grados de libertad del LASSO

Respuestas: