Realizando un modelo de regresión lineal usando una función de pérdida, ¿por qué debería usar lugar de L 2 regularización?
¿Es mejor prevenir el sobreajuste? ¿Es determinista (por lo que siempre es una solución única)? ¿Es mejor en la selección de características (porque produce modelos dispersos)? ¿Dispersa los pesos entre las características?
linear-regression
regularization
estudiante de matemáticas
fuente
fuente
Respuestas:
Básicamente, agregamos un término de regularización para evitar que los coeficientes se ajusten tan perfectamente al sobreajuste.
La diferencia entre L1 y L2 es que L1 es la suma de los pesos y L2 es solo la suma del cuadrado de los pesos.
L1 no se puede utilizar en enfoques basados en gradientes ya que no es diferenciable a diferencia de L2
L1 ayuda a realizar la selección de características en espacios de características dispersos. La selección de características es saber qué características son útiles y cuáles son redundantes.
La diferencia entre sus propiedades se puede resumir como:
fuente
L2 tiene una ventaja muy importante para L1, y es la invariancia a la rotación y la escala.
Esto es especialmente importante en la aplicación geográfica / física.
Digamos que su técnico instaló accidentalmente su sensor en un ángel de 45 grados, L1 se vería afectado, mientras que L2 (distancia euclidiana) permanecería igual.
fuente