En la regresión de cresta, la función objetivo a minimizar es:
¿Se puede optimizar esto utilizando el método multiplicador de Lagrange? ¿O es una diferenciación directa?
En la regresión de cresta, la función objetivo a minimizar es:
¿Se puede optimizar esto utilizando el método multiplicador de Lagrange? ¿O es una diferenciación directa?
Respuestas:
Hay dos formulaciones para el problema de la cresta. El primero es
sujeto a
Esta formulación muestra la restricción de tamaño en los coeficientes de regresión. Tenga en cuenta lo que implica esta restricción; Estamos obligando a los coeficientes a descansar en una bola alrededor del origen con radio .s√
La segunda formulación es exactamente tu problema
que puede verse como la formulación del multiplicador Largrange. Tenga en cuenta que aquí es un parámetro de ajuste y sus valores más grandes conducirán a una mayor contracción. Puede proceder a diferenciar la expresión con respecto a β y obtener el conocido estimador de crestaλ β
Las dos formulaciones son completamente equivalentes , ya que existe una correspondencia uno-a-uno entre y λ .s λ
Déjame explicar un poco sobre eso. Imagine que usted es en el caso ortogonal ideales, . Esta es una situación altamente simplificada y poco realista, pero podemos investigar el estimador un poco más de cerca, así que tengan paciencia conmigo. Considere lo que le sucede a la ecuación (1). El estimador de cresta se reduce aX′X=I
como en el caso ortogonal, el estimador OLS está dado por . Mirando este componente sabio ahora obtenemosβOLS=X′y
Observe entonces que ahora la contracción es constante para todos los coeficientes. Es posible que esto no se cumpla en el caso general y, de hecho, se puede demostrar que las contracciones diferirán ampliamente si hay degeneraciones en la matrizX′X
Pero volvamos al problema de optimización restringida. Según la teoría KKT , una condición necesaria para la optimización es
entonces o ∑ β 2 R , j - s = 0 (en este caso decimos que la restricción es vinculante). Si λ = 0, entonces no hay penalización y estamos de vuelta en la situación normal de OLS. Supongamos entonces que la restricción es vinculante y estamos en la segunda situación. Usando la fórmula en (2), entonces tenemosλ=0 ∑β2R,j−s=0 λ=0
de donde obtenemos
la relación uno a uno previamente reclamada. Espero que esto sea más difícil de establecer en el caso no ortogonal, pero el resultado es independiente.
Sin embargo, vuelva a mirar (2) y verá que todavía nos falta la . Para obtener un valor óptimo, puede usar validación cruzada o mirar el rastro de cresta. El último método implica construir una secuencia de λ en (0,1) y observar cómo cambian las estimaciones. Luego selecciona el λ que los estabiliza. Por cierto, este método se sugirió en la segunda de las referencias a continuación y es el más antiguo.λ λ λ
Referencias
fuente
rms
pentrace
fuente
No lo hago analíticamente, sino numéricamente. Usualmente trazo RMSE vs. λ como tal:
Figura 1. RMSE y la constante λ o alfa.
fuente