Normas de Ridge y LASSO

12

Esta publicación sigue a esta: ¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?

Aquí está mi pregunta:

Hasta donde yo sé, la regularización de crestas utiliza una -norm (distancia euclidiana). Pero, ¿por qué usamos el cuadrado de esta norma? (una aplicación directa de resultaría con la raíz cuadrada de la suma de beta al cuadrado).22

Como comparación, no hacemos esto para LASSO, que usa una -norm para regularizar. Pero aquí es la norma "real" (solo la suma del cuadrado de los valores absolutos beta, y no el cuadrado de esta suma).11

¿Alguien puede ayudarme a aclarar?

PLOTZ
fuente
2
El término de penalización en la regresión de cresta es la norma L2 al cuadrado. Vea estas diapositivas escritas por Tibshirani como ejemplo (diapositiva 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Vea también aquí en.wikipedia.org/wiki/Tikhonov_regularization
boscovich
Pequeño punto de aclaración, estas son diapositivas de Ryan Tibshirani no Rob.
Ellis Valentiner
ok, muchas gracias por la aclaración. Pero no entiendo por qué al cuadrado para L2 y no al cuadrado para L1. ¿No tenemos fórmulas generales para algún tipo de regularización?
PLOTZ
@ user12202013: gracias por señalarlo. No me di cuenta de eso.
boscovich

Respuestas:

9

Ridge y el lazo son dos formas de regularización y una regresión. La regresión de lazo impone una restricción sobre la suma de los coeficientes absolutos:

iβi2=||β||1

La regresión de cresta impone una restricción de la suma de las diferencias al cuadrado:

iβi2=iβi22=||βi||22

Sugirió introducir incluso otra norma, la longitud euclidiana de los coeficientes:

iβi2=||βi||2

La diferencia entre la regresión de Ridge y la longitud euclidiana es la cuadratura. Esto cambia la interpretación de la regularización. Mientras tanto la cresta como la longitud euclidiana se regularizan hacia cero, la regresión de cresta también difiere en la cantidad de regularización. Los coeficientes que están más lejos de cero tiran más fuerte hacia cero. Esto lo hace más estable alrededor de cero porque la regularización cambia gradualmente alrededor de cero. Este no es el caso para la longitud euclidiana, o de hecho, para la regresión de lazo.

Pieter
fuente
7

Hay muchos enfoques penalizados que ahora tienen todo tipo de funciones de penalización diferentes (cresta, lazo, MCP, SCAD). La pregunta de por qué es una de una forma particular es básicamente "¿qué ventajas / desventajas proporciona tal penalización?".

Las propiedades de interés pueden ser:

1) estimadores casi imparciales (tenga en cuenta que todos los estimadores penalizados estarán sesgados)

2) Escasez (tenga en cuenta que la regresión de cresta no produce resultados dispersos, es decir, no reduce los coeficientes hasta cero)

3) Continuidad (para evitar la inestabilidad en la predicción del modelo)

Estas son solo algunas propiedades que uno podría estar interesado en una función de penalización.

Es mucho más fácil trabajar con una suma en derivaciones y trabajo teórico: por ejemplo, y. Imagina si tuviéramos o . Tomar derivados (que es necesario para mostrar resultados teóricos como consistencia, normalidad asintótica, etc.) sería un dolor con penalizaciones como esa.| El | β | El | 1 = | β i | ||β||22=|βi|2||β||1=|βi| (|βi|)2(|βi|2)(|βi|)2

bdeonovic
fuente
OK gracias. Pero, ¿por qué al cuadrado para L2 y no al cuadrado para L1? ¿No tenemos fórmulas generales para algún tipo de regularización? Esto me desconcierta ...
PLOTZ
@PLOTZ Agregué un poco a mi respuesta.
bdeonovic
Muchas gracias Benjamin! ¡Seguro que ahora está más claro! No entendí este propósito teórico antes de tu respuesta. Muchas gracias por tu respuesta.
PLOTZ
@Benjamin: en el punto # 1, ¿en realidad querías decir "( no todos los estimadores penalizados serán imparciales)"? La regresión de crestas, solo por nombrar una, está sesgada.
boscovich
¡Vaya sí, gracias por atrapar eso! Creo que, de hecho, todos los estimadores penalizados estarán sesgados.
bdeonovic
5

En realidad, tanto el cuadrado del -norm como el -norm provienen de una misma clase de regularización: cuando .21βppp>0

La regresión de Ridge está usando , y Lasso pero uno puede usar otros valores de .p=2p=1p

Por ejemplo, tiene una solución dispersa para todos los valores de , y cuanto menor es el valor de más dispersa es la solución.p1p

Para valores de su objetivo no es más fluido, por lo que la optimización se vuelve más difícil; para el objetivo no es convexo, por lo que la optimización es aún más difícil ...p1p<1

Tonio Bonnef
fuente
2

Creo que hay una respuesta aún más simple aquí, aunque las preguntas de "por qué" siempre son difíciles de responder cuando se desarrolla una técnica. El cuadrado -norm se usa para que el término de regularización sea fácilmente diferenciable. La regresión de cresta minimiza:l2

yXβ22+λβ22

Que también se puede escribir:

yXβ22+λβTβ

Esto ahora se puede diferenciar fácilmente wrt para obtener la solución de forma cerrada:β

β^ridge=(XTX+λI)1XTy

de donde se puede derivar todo tipo de inferencia.

Tim Atreides
fuente
1

Considere otra diferencia importante entre usar el cuadrado de la norma (es decir, la regresión de la cresta) y la norma no modificada : la derivada de la norma de , , en viene dada por y, por lo tanto, no es diferenciable en el vector cero. Es decir, aunque la norma no realiza una selección de variables individuales como el lazo, en teoría podría producir como la solución a la máxima probabilidad penalizada. Al cuadrar el222x||x||2xx||x||22β=02 norma en la penalización, la penalización de tipo cresta es diferenciable en todas partes y nunca puede dar tal solución.

Este comportamiento es exactamente (según tengo entendido) por qué el lazo de grupo (Yuan y Lin) y el lazo de grupo disperso (Simon, et al.), Etc., usan la norma (en subconjuntos de coeficientes preespecificados) en lugar del cuadrado de la norma .22

psboonstra
fuente