Hay muchos métodos para llevar a cabo la regularización - , y regularización basada norma, por ejemplo. Según Friedman Hastie & Tibsharani , el mejor regularizador depende del problema: a saber, la naturaleza de la verdadera función objetivo, la base particular utilizada, la relación señal / ruido y el tamaño de la muestra.
¿Existe alguna investigación empírica que compare métodos y desempeño de varios métodos de regularización?
r
regression
machine-learning
regularization
Ram Ahluwalia
fuente
fuente
Respuestas:
Consideremos un modelo lineal penalizado.
La penalización no se usa mucho y a menudo se reemplaza por la norma que es matemáticamente más flexible.L0 L1
La regularización tiene la propiedad de construir un modelo disperso. Esto significa que solo unas pocas variables tendrán un coeficiente de regresión no 0. Se utiliza particularmente si supone que solo unas pocas variables tienen un impacto real en las variables de salida. Si hay variables muy correlacionadas, solo se seleccionará una de ellas con un coeficiente distinto de 0.L1
La penalización es como si agrega un valor en la diagonal de la matriz de entrada. Se puede usar, por ejemplo, en situaciones donde el número de variables es mayor que el número de muestras. Para obtener una matriz cuadrada. Con la penalización de la norma , todas las variables tienen un coeficiente de regresión distinto de cero.L2 λ L2
fuente
Algunas adiciones a la respuesta de @Donbeo
1) La norma L0 no es una norma en el sentido verdadero. Es el número de entradas distintas de cero en un vector. Esta norma claramente no es una norma convexa y no es una norma en el sentido verdadero. Por lo tanto, es posible que vea términos como L0 'norma'. Se convierte en un problema combinatorio y, por lo tanto, es NP difícil.
2) La norma L1 proporciona una solución dispersa (busque el LASSO). Hay resultados fundamentales de Candes, Donoho, etc., que muestran que si la verdadera solución es realmente escasa, los métodos penalizados con L1 la recuperarán. Si la solución subyacente no es escasa, no obtendrá la solución subyacente en los casos en que p >> n. Hay buenos resultados que muestran que el lazo es consistente.
3) Existen métodos como la red elástica de Zhou y Hastie que combinan soluciones penalizadas L2 y L1.
fuente