Esta publicación sigue a esta: ¿Por qué la estimación de cresta se vuelve mejor que OLS al agregar una constante a la diagonal?
Aquí está mi pregunta:
Hasta donde yo sé, la regularización de crestas utiliza una -norm (distancia euclidiana). Pero, ¿por qué usamos el cuadrado de esta norma? (una aplicación directa de resultaría con la raíz cuadrada de la suma de beta al cuadrado).
Como comparación, no hacemos esto para LASSO, que usa una -norm para regularizar. Pero aquí es la norma "real" (solo la suma del cuadrado de los valores absolutos beta, y no el cuadrado de esta suma).
¿Alguien puede ayudarme a aclarar?
Respuestas:
Ridge y el lazo son dos formas de regularización y una regresión. La regresión de lazo impone una restricción sobre la suma de los coeficientes absolutos:
La regresión de cresta impone una restricción de la suma de las diferencias al cuadrado:
Sugirió introducir incluso otra norma, la longitud euclidiana de los coeficientes:
La diferencia entre la regresión de Ridge y la longitud euclidiana es la cuadratura. Esto cambia la interpretación de la regularización. Mientras tanto la cresta como la longitud euclidiana se regularizan hacia cero, la regresión de cresta también difiere en la cantidad de regularización. Los coeficientes que están más lejos de cero tiran más fuerte hacia cero. Esto lo hace más estable alrededor de cero porque la regularización cambia gradualmente alrededor de cero. Este no es el caso para la longitud euclidiana, o de hecho, para la regresión de lazo.
fuente
Hay muchos enfoques penalizados que ahora tienen todo tipo de funciones de penalización diferentes (cresta, lazo, MCP, SCAD). La pregunta de por qué es una de una forma particular es básicamente "¿qué ventajas / desventajas proporciona tal penalización?".
Las propiedades de interés pueden ser:
1) estimadores casi imparciales (tenga en cuenta que todos los estimadores penalizados estarán sesgados)
2) Escasez (tenga en cuenta que la regresión de cresta no produce resultados dispersos, es decir, no reduce los coeficientes hasta cero)
3) Continuidad (para evitar la inestabilidad en la predicción del modelo)
Estas son solo algunas propiedades que uno podría estar interesado en una función de penalización.
Es mucho más fácil trabajar con una suma en derivaciones y trabajo teórico: por ejemplo, y. Imagina si tuviéramos o . Tomar derivados (que es necesario para mostrar resultados teóricos como consistencia, normalidad asintótica, etc.) sería un dolor con penalizaciones como esa.| El | β | El | 1 = ∑ | β i | √||β||22=∑|βi|2 ||β||1=∑|βi| (∑|βi|)2(∑|βi|2)−−−−−−−−√ (∑|βi|)2
fuente
En realidad, tanto el cuadrado del -norm como el -norm provienen de una misma clase de regularización: cuando .ℓ2 ℓ1 ∥β∥pp p>0
La regresión de Ridge está usando , y Lasso pero uno puede usar otros valores de .p=2 p=1 p
Por ejemplo, tiene una solución dispersa para todos los valores de , y cuanto menor es el valor de más dispersa es la solución.p≤1 p
Para valores de su objetivo no es más fluido, por lo que la optimización se vuelve más difícil; para el objetivo no es convexo, por lo que la optimización es aún más difícil ...p≤1 p<1
fuente
Creo que hay una respuesta aún más simple aquí, aunque las preguntas de "por qué" siempre son difíciles de responder cuando se desarrolla una técnica. El cuadrado -norm se usa para que el término de regularización sea fácilmente diferenciable. La regresión de cresta minimiza:l2
Que también se puede escribir:
Esto ahora se puede diferenciar fácilmente wrt para obtener la solución de forma cerrada:β
de donde se puede derivar todo tipo de inferencia.
fuente
Considere otra diferencia importante entre usar el cuadrado de la norma (es decir, la regresión de la cresta) y la norma no modificada : la derivada de la norma de , , en viene dada por y, por lo tanto, no es diferenciable en el vector cero. Es decir, aunque la norma no realiza una selección de variables individuales como el lazo, en teoría podría producir como la solución a la máxima probabilidad penalizada. Al cuadrar elℓ2 ℓ2 ℓ2 x ||x||2 x x||x||2 ℓ2 β=0 ℓ2 norma en la penalización, la penalización de tipo cresta es diferenciable en todas partes y nunca puede dar tal solución.
Este comportamiento es exactamente (según tengo entendido) por qué el lazo de grupo (Yuan y Lin) y el lazo de grupo disperso (Simon, et al.), Etc., usan la norma (en subconjuntos de coeficientes preespecificados) en lugar del cuadrado de la norma .ℓ2 ℓ2
fuente