¿Por qué usar la regularización L1 sobre L2?

10

Realizando un modelo de regresión lineal usando una función de pérdida, ¿por qué debería usar lugar de L 2 regularización?L1L2

¿Es mejor prevenir el sobreajuste? ¿Es determinista (por lo que siempre es una solución única)? ¿Es mejor en la selección de características (porque produce modelos dispersos)? ¿Dispersa los pesos entre las características?

estudiante de matemáticas
fuente
2
L2 no hace una selección de variables, por lo que L1 es definitivamente mejor en esto.
Michael M

Respuestas:

5

Básicamente, agregamos un término de regularización para evitar que los coeficientes se ajusten tan perfectamente al sobreajuste.

La diferencia entre L1 y L2 es que L1 es la suma de los pesos y L2 es solo la suma del cuadrado de los pesos.

L1 no se puede utilizar en enfoques basados ​​en gradientes ya que no es diferenciable a diferencia de L2

L1 ayuda a realizar la selección de características en espacios de características dispersos. La selección de características es saber qué características son útiles y cuáles son redundantes.

La diferencia entre sus propiedades se puede resumir como:

l1 vs l2

Bathini Pranay Kumar
fuente
1
No es cierto que "L1 no se puede usar en enfoques basados ​​en gradientes". Keras lo admite , por ejemplo. Sí, la derivada siempre es constante, por lo que es más difícil para el descenso de gradiente encontrar el mínimo. Pero la regularización es un término pequeño dentro de la función de pérdida, por lo que no es muy importante en el gran esquema de las cosas.
Ricardo Cruz
-1

L2 tiene una ventaja muy importante para L1, y es la invariancia a la rotación y la escala.

Esto es especialmente importante en la aplicación geográfica / física.

Digamos que su técnico instaló accidentalmente su sensor en un ángel de 45 grados, L1 se vería afectado, mientras que L2 (distancia euclidiana) permanecería igual.

Chati Denati
fuente
44
Esto no es en absoluto una respuesta a la pregunta.
kbrose
¿Podría explicar la invariancia, por favor?
aneesh joshi
@Chati, la pregunta es sobre la regularización. Lo está confundiendo con otros usos de 1-norma y 2-norma en funciones de pérdida.
Ricardo Cruz